天天看點

詳解聲紋識别:如何正确評價小度在最強大腦中戰平人類?|獨家解析

雷鋒網按:作者陳孝良,博士,聲智科技創始人,曾任中科院聲學所副研究員和資訊化辦公室主任,中科院上海高等研究院客座,北京市警察局首屆網絡應急專家,主要從事聲學信号處理和 gpu 深度學習算法研究工作。本文系雷鋒網獨家首發文章。

百度小度在“最強大腦”比賽中以1:1戰平名人堂公認最擅長聲音辨識的選手孫亦廷,引發了一些媒體的追蹤報道,我們驚喜的同時也發現有些文章的報道是不準确的,這種漫無邊際的誇大實質上對百度口碑是不利的。我們始終應該清晰的認識到:人工智能經過半個多世紀的起起伏伏,到如今開始落地到應用場景,确實是一件非常令人興奮的事情,但這不代表着人工智能就真的智能了,并且超越人類了。事實上,這才隻是剛剛開始,人工智能還有很長的路要走。

我們先看“最強大腦”比賽中設定的場景,首先由嘉賓周傑倫在21位專業合唱團成員中任選三位歌唱者,并與其進行現場通話,通話錄音被截取成片段,然後人機共同根據這些通話片段,在随後的合唱表演中一次找出這三位歌唱者。這其中有一個小插曲,周傑倫在介紹環節讓觀衆和其他嘉賓現場去試驗,沒有觀衆能從合唱中正确辨識出缺少了哪位歌唱者,這其實是根本不公平的。現場觀衆聽到的是演播室場景下通過音響系統擴放的聲音,這些聲音受到了建築環境、音響系統的多次污染,而且是混音後的聲音,其難度完全挑戰了實體極限。但是真實比賽中,從電視畫面的場景分析來看其實完全不是這個情況,“最強大腦”節目組所設定的難度和追求的理念在實際執行過程中是大大折扣了,這非常容易産生誤導。

詳解聲紋識别:如何正确評價小度在最強大腦中戰平人類?|獨家解析
詳解聲紋識别:如何正确評價小度在最強大腦中戰平人類?|獨家解析
我們從兩幅視訊截圖中可以看出,每位歌唱者面前都擺放了獨立的麥克風,這種麥克風從外觀來看動圈式的可能性更大,動圈式麥克風的靈敏度要低于電容麥克風,其可拾取的聲音頻段也不如電容麥克風。動圈式麥克風常常應用于舞台錄音,主要就是為了避免噪聲幹擾。并且,孫亦廷面前擺放了21個按鍵可以放大任意一位演唱者的聲音,同時孫亦廷也是戴着耳罩式耳機來聽聲音。

是以節目組特意安排的這種聲學場景布局就産生了兩個疑問:

其一:每個歌唱者的聲音其實是單獨錄制的,不存在每個歌唱者之間的互相幹擾和現場噪音幹擾的問題,而孫亦廷聽到的聲音和現場觀衆聽到的聲音,以及電視面前各位聽到的聲音也是不一樣的。

孫亦廷聽到的聲音是每位合唱者的獨立音軌通過演播室音響系統混音後的聲音(這也有待于确認混音方法),至于孫亦廷的耳機是否包含音樂的混音我們還無法從電視畫面中确認。而現場觀衆聽到的聲音則會受到演播室音響擴聲系統和演播室建築聲學設計的嚴重影響。電視觀衆所聽到的聲音還會受到電視音頻編解碼系統的嚴重影響。

其二:就是百度的小度機器人所獲得的音頻是怎樣的?若是直接擷取到21個歌唱者的獨立音軌,則就完全繞過了實體感覺中的所有難題,僅僅隻是比拼深度學習算法而已。

即便和現場示範一樣也是獲得的混音資料,由于機器人可以比人類更友善的放大每一位歌唱者的音頻,也是極大減弱了挑戰的難度,這對于人類反而不公平了。凡是學過信号處理的同學都清楚,信号處理其實不在意絕對噪聲的幹擾,理想場景的實體世界是不存在的,隻要符合“信噪比”這個名額就能滿足機器處理的要求。

是以有篇文章中所提到的“低品質的語音資料,又要在強噪聲幹擾下對歌唱資料進行識别,對小度來說确實挑戰很大”這句話實際上是不準确的。即便“合唱發聲差異性極小且互相影響”這句話也不是确定的。小度機器人聽到的聲音,孫亦廷聽到的聲音,現場觀衆聽到的聲音和電視機觀衆聽到的聲音其實都是不一樣的,而且這個難度也是逐漸增加的。後面兩種聲音其實才是真正的挑戰極限,而且這兩種極限挑戰還存在無解的問題。因為實體世界和人耳機理存在一些特性,即便現場觀衆所聽到的聲音也有兩個難點必須考慮到:

(1)演播室音響系統,對于聲音的渲染處理會損失原始聲音特性或者增強無關特性,這将會加重人耳聽到聲音的誤差。

(2)現場聽到的聲音,也會收到演播室的建築聲學設計和擴聲系統設計的影響,這其中還包括了聲學兩個特殊效應的制約:

其一就是哈斯效應(haas effect; precedence effect),這是一種雙耳心理聲學效應,聲音延遲對人類方向聽覺的影響要比能量大小的影響更大的效應,故此也被稱為優先效應。 哈斯效應是亥爾姆·哈斯于1949年在他的博士論文中描述的,常常利用哈斯效應來調整會場和音樂廳的聲音和諧。舉個簡單的例子,若你到電影院坐到了靠近音箱的位置,那幾乎聽到的聲音幾乎都是附近這個喇叭發出的了。事實上現場觀衆根本就無法區分21位歌唱者在合唱時候的差别。 其二就是掩蔽效應(masking effect),簡單說是環境中的其他聲音會使人類聽覺對某一個聲音的聽力降低。 當一個聲音的強度遠比另一個聲音大,當大到一定程度而這兩個聲音同時存在時,人們隻能聽到音量更大的那個聲音存在,而覺察不到另一個聲音存在。其中,低頻聲的掩蔽範圍大于高頻聲的掩蔽範圍。也就說,現場觀衆可能根本就無法辨認出到底有幾個歌唱者的聲音,何談再從中識别出特征了。

當然還有更多實體定律和聲學模型的制約,即便上面的哈斯效應和掩蔽效應實際上也造成了現場聽衆可能無解的情況,因為可能壓根就沒有擷取到所需要的實體信号。這對于電視機前面的觀衆就更為苛刻了,因為即便數字電視的音頻編解碼也是有損壓縮的,這實際上又損失了衆多聲學特征資訊,不管是mp3還是aac都利用了人耳的掩蔽效應進行了壓縮,何況電視在家裡的擺放同樣也無法避免建築聲學和音響系統的制約。

是以,“最強大腦”節目組所追求的難度和效果實際上在執行過程中已經嚴重折扣了,這次比賽更是考驗深度學習算法和人腦識别的差異,而刻意回避了實體感覺中的難題,和深度學習在測試集的測試結果沒有本質上的差别。

事實上,百度科學家對于這個問題是清晰認識的,百度語音識别技術負責人李先剛坦言:

就現在的深度學習或者相關技術來說,處理同一個麥克風捕捉的多人同時說話的資料确實很難做,還有很多地方值得我們去挑戰。但就實際應用場景來說,有其他方法可以較好地解決該問題,比如強化定位,正如人有兩個耳朵可以定位聲音源,在實際應用中我們可以采用多個麥克風來加強目标聲源的聲音,這樣就能較好地分辨目标聲源和周圍嘈雜。

吳恩達老師也表示,此次百度在ces上推出的小魚(little fish)機器人中配置了2個麥克風,可以一定程度解決多人說話的問題,未來還可以用4個、7個甚至更多麥克風來處理該問題。這也正是為何我們聲智科技一直追求提升聲學傳感技術的原因所在。

是以,這裡小結一下,以觀衆所感受的難度來描述實際挑戰的難度是有誇大成分的,誇大宣傳會誤解大家對于技術發展的正确認知,進而拉大了人們預期,這對于國内的研究和産業進步都是非常不利的。我們從國外媒體中所看到的文章,其風格相比國内都是比較嚴肅保守的,包括極其風光的谷歌和亞馬遜,谷歌選用alphago挑戰圍棋非常聰明,避過了人工智能的缺點,即便如此也仍然非常謹慎。亞馬遜的echo其實已經非常成功了,但是echo幾乎不提語音識别率的問題,即便對于遠場識别尤為關鍵的麥克風陣列也是排在了次要位置甚少強調,這都是非常聰明的。因為技術的發展還遠沒有達到國内宣傳所誇大的程度。

另外還要補充說下聰明的蘋果,大家不要忽視了這位低調的巨頭,siri積累了那麼多年,優勢是在近場語音互動,而智能耳機就是最好的落地,蘋果并沒有缺席人工智能,也不會錯過下一個計算平台,而是悄悄的把握住了另外一個巨大的市場機會。

綜合上面分析來看,若電視場景中所表現出來的和實際工作過程都是準确如實的(抱歉畢竟隻是娛樂節目,而不是公開論文可驗證,谷歌的alphago再次聰明的避過了這個驗證難題),孫亦廷其實面臨的難度要超過百度的小度機器人,若公平來說,人類和機器人所面臨的挑戰難度都是極大的,百度的小度機器人也展現出來了吳恩達老師帶領百度人工智能團隊領先的水準。

這個挑戰最大的難度在于:節目組設計的挑戰是從片段的說話聲中辨認出歌唱者。周傑倫給3個歌唱者的對話都是比較簡短的,而且這個對話又被簡單處理了(隻是截取,和加密也沒啥關系),我們從愛奇藝的視訊中抽取了這三段視訊,其聲紋特征如下(非現場原始音頻,已經被壓縮很大,僅供參考):

詳解聲紋識别:如何正确評價小度在最強大腦中戰平人類?|獨家解析

第一個是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的範圍。是以不同的人雖然說同樣的話,但是聲音的頻率分布是不同的,聽起來有的低沉有的洪亮。每個人的發聲腔都是不同的,就像指紋一樣,每個人的聲音也就有獨特的特征。

第二個決定聲音特征的因素是發聲器官被操縱的方式,發聲器官包括唇、齒、舌、軟腭及腭肌肉等,他們之間互相作用就會産生清晰的語音。而他們之間的協作方式是人通過後天與周圍人的交流中随機學習到的。人在學習說話的過程中,通過模拟周圍不同人的說話方式,就會逐漸形成自己的聲紋特征。

顯然,說話和唱歌的時候無法改變人類發聲的器官,這也是聲紋識别挑戰所能辨認的基礎,否則真就成了mission

impossible。但是人類操縱發聲器官的方式是不同的,這就是很大的難度。和上面的方法一樣,我們也将第一位歌唱者的說話片段和唱歌片段從愛奇藝視訊中抽取如下: 

詳解聲紋識别:如何正确評價小度在最強大腦中戰平人類?|獨家解析

從圖中仍然可以看出,歌唱者說話和唱歌的聲紋沒有本質的差别,但是對于基于深度學習技術的小度機器人來說,這項挑戰确實難度是極大的。節目中截取後的錄音片段,一整條語音不超過10個字,有效時間小于 3s,而且斷斷續續,這容易造成聲紋特征的缺失。更加困難的是,必須從這有限的資料中推斷出唱歌時候的聲紋是否比對。

之是以說孫亦廷的挑戰更大,是因為除了人類自身感覺記憶的缺陷,還有就是孫亦廷必須手動按鍵來放大聲音進行比對确認,這個過程是必不可少的,而上面提到了,小度機器人的處理方式肯定要比人類更簡單,否則也沒有必要在每個歌唱者面前放置麥克風。

另外,百度idl實驗室主任林元慶的描述還欠缺一些關鍵資訊:“在此基礎上,我們收集少量的,比如1000個人在特殊場景下的聲音,比如說唱歌。在比賽之前我們知道有唱歌内容,但是不知道要唱什麼歌,于是去收集一些歌來訓練模型,讓模型能夠更準确的識别說話和唱歌時的聲音差異。”

這沒有準确說出這次訓練的資料來源是不是包含了21位歌唱者的唱歌資料,這非常關鍵,孫亦廷很難同時記憶21位歌唱者的唱歌聲紋,但如果機器事先訓練了,則事實上比人類提前積累了特征資料。

詳解聲紋識别:如何正确評價小度在最強大腦中戰平人類?|獨家解析

這裡小結一下:百度小度機器人的挑戰難度确實是很大的,也展現出了百度在吳恩達老師帶領下深度學習的積累和水準,但是相對于google的alphago來說還是欠缺一些說服力,百度應該公開可以測試或者應用的技術,而不僅僅隻在娛樂節目中展現技術水準。當然節目組可以繼續加大這項節目挑戰的難度,比如将21個人增加到100個人,同時考慮人聲的差異分布,還可以考慮加入現場的影響等等。

我們知道,機器的計算和存儲能力都已經超越了人類,識别能力超過人類也是毋庸置疑的事情。但是目前的語音識别能力還沒有全面超越人類,至于遠場的語音識别,因為還涉及了實體世界模型的問題,這個過程更加長遠一些。我們估計,憑借現在資料的增長和新算法的疊代,3~5年内出現人類普遍應用的語音互動産品還是很有可能的。至于圖像識别,從目前imagenet的測試來看,從樣本測試精度已經超過了人類,但是若落地到實際場景,這個方面機器相比人類還有非常大的差距,比如大家經常忽略了圖像識别的核心攝像頭光學模組,而到目前為止,我們的核心光學模組還都是國外所供應的。

人工智能時代,是不是可以邁過pc時代和移動時代的局限,不再是從器件、晶片、os、算法清一色的國外技術,而真正誕生出我們國家自己的核心技術?我們期望着國内的研究機構和巨頭公司能在基礎研究和核心技術上積累優勢,而在模式營銷少花點精力,也不要浪費資源搶占創業公司的應用類小市場,因為巨頭的對手應該是國外的google、facebook、apple、tesla等等這些雄心改變人類的巨頭。

理念和價值觀決定了一家公司的走向,賺錢不是成功唯一的标準,貢獻一點為人類發展有價值的事情,即便失敗了也是值得懷念和曆史記憶的,這也是我帶着兄弟們出來創業的核心動力。

深度學習帶給了我們無限的想象力,但是我們仰望星空的同時,也要腳踏實地,正确認識計算機進步帶給我們的便利和局限。計算機學科的方法論進步,其實沒有改變這個世界的實體模型,也不代表計算機領域的符号主義就此衰落,因為深度學習的舉萬反一和人類的舉一反三還是背道而馳的。深度學習更應該結合符号表示和推理模型融合發展,隻不過這是喜馬拉雅山的北坡,技術的難度更加巨大。

現在的深度學習确實帶來了極大的進步,主要是在識别領域的突飛猛進,因為實體研究總是想弄明白“為什麼”,然後再據此構模組化型和推理。但是現在深度學習幾乎不用花費精力探讨這個問題,隻要擁有了海量資料,不必關心“為什麼”,也不用深究特征,資料的規模和精度才是關鍵。從這個層面來看,我們就能非常容易了解這種方法的局限,深度學習目前還僅适用具有确定的規則和目标,并且基于現有知識結構,其答案也是封閉鍊條的場景,也就是我們常常提到的一些垂直場景。從這個層面來看,通用的語音識别就存在極大的不确定性,很難達到人類的程度,而且語義了解(nlp)顯然僅僅依靠大資料和深度學習是無法解決了解人類語言問題的。

但是未來終究是人工智能的時代,是以建議投身于人工智能領域的廣大學子,除了奉獻于計算機的進步,也要關注實體領域的進展,圖靈獎和諾貝獎都是推動這個世界進步的動力,而未來更多的獎項應該是我們中國學子的。

最後,我想用張钹院士的一句話作為總結:

五十年後的事情可能我說不清楚,但是我可以說說三五年之後的事情。很多人說究竟現在是人工智能的春天還是夏天?有人說春天,因為正在蓬勃發展。有人說夏天,因為有點熱過頭了。但是我說現在是人工智能的秋天。秋天有兩個含義:一是秋天是收獲的季節,我們有很多成果。二是說秋天,是因為冬天就在前頭。 本文作者:陳孝良

繼續閱讀