天天看點

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

鄢志傑長期從事語音互動智能的研究、 産品化和商業化工作,在他看來,雖然現在語音技術在持續進步,但是離解鎖下一個關鍵場景還有很長的距離——技術發展的斜率還不夠陡峭。

人物丨鄢志傑 阿裡巴巴達摩院語音實驗室負責人

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

2003年進入中科大語音實驗室攻讀博士時,鄢志傑已經笃定認為,彼時尚未成為主流的語音行業以後必成大勢。博士畢業後他進入微軟亞洲研究院,曾任語音團隊主管研究員,2015年加入阿裡巴巴集團。同時,他還是IEEE進階會員,長期擔任語音領域頂級學術會議及期刊專家評審。

深耕語音行業十八年來,鄢志傑長期從事語音互動智能的研究、産品化和商業化工作,在語音識别、語音合成、語音互動等多個領域展開深入研究并成果斐然,其研究成果被廣泛應用于阿裡巴巴集團、螞蟻金服及微軟公司多項語音相關産品中。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q1:你怎麼向公衆去描述現在正在研究的方向?

鄢志傑:我通常會用比喻的方式。其實AI很多研究方向,都是和人的感覺相關。如果說計算機視覺對應的是眼睛,我做的就是耳朵和嘴——耳朵是語音識别,把語音轉成文字,嘴就是語音合成,把文字轉成語音。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q2:這幾年,智能語音互動領域還有沒有讓你很意外的應用場景?

鄢志傑:唯一有一個意外是,在我研究所學生階段開始學這個技術的時候,沒想到今天在限定領域的語音互動的自然度,能夠達到這麼高的水準。比如說我接到天貓超市打來的電話,說馬上要配送了,問在不在家裡,送到門口還是送到物業?其實這都是AI打的電話,但很多人并沒有感覺到不同。當然這還隻是在一個非常特定的領域,其他更廣泛的領域裡現在技術還做不到這麼自然的程度。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q3:現在技術的限制主要是哪些?

鄢志傑:限制還是很多的。比如語音識别,還是停留在各種場景下更普适的語音識别準确率。當年IBM的Via Voice,要帶一個耳麥講話,現在手機可以在稍遠距離準确識别,智能音箱又可以做到更大距離。但這些的前提是,在家裡邊不會有太多的噪聲,而且這些場景都是單人的,都是跟機器去完成一個單獨的任務——要麼是聽寫,要麼是想點一首歌。但如果加了很多别的因素,準确率就會逐漸下降,比如說噪音、口音、多人,甚至不是要完成一個任務而是多人閑聊甚至争吵,還有語音之間的互相覆寫等等。

語音合成也一樣,現在AI讀一個句子、甚至一段話基本上可以以假亂真,但是讀一個篇章以後,例如小說,就會發現AI說話沒有感情的起伏,是千篇一律的。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q4:這些技術的障礙,是什麼層面的障礙?算法?還是硬體 ?

鄢志傑:我覺得都有。剛才說在一個真實環境下對人與人交流進行拾音就是采集的問題,這些就很基礎,甚至涉及麥克風本身,在這些信号采集之上的信号處理、降噪增強算法問題也不少。

拾音後,如何處理多人同時講話,比如兩個人在争吵,怎麼做到這種場景下有效的語音分離,不僅辨識出說話的内容,還要識别出說話人的身份,這些技術都是上層的,算法也會涉及。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q5:好像現在整個語音互動停留在了一個平台期,當年從上一個平台期到這個平台期,到底是哪些因素改變了?

鄢志傑:第一個因素是移動網際網路,表面上看起來沒有關系,其實關系很大。因為移動網際網路帶來一個巨大的好處,就是擷取合法合規的資料越來越容易了。以前我們剛學技術的時候,積累語音素材要請人到錄音棚裡對着麥克風錄音,這樣做的問題首先是不真實,因為是在錄音棚,第二是覆寫的人數很有限——能雇到幾百人就很多了。

第二個因素是深度學習,除了算法以外,還有資料和算力。

然而,我覺得最終是應用的推動。今天使用者能夠通過手機、音箱去獲得網際網路上的内容,有一些可以給C端使用者用起來的東西,促進了技術的良性循環發展。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q6:深度學習出來之後的确是解鎖了很多方法,提供了一個完全不一樣的思路,但是另外一方面,是不是也透支了很多過去的積累?

鄢志傑:這種擔心很有必要。

上一個問題的回答裡,或許還要加一個“開源”,這也是推動技術發展的重要力量。開源帶來一個問題,就是現在很多新一代研究者很容易通過開源站到一定的高度上去,但這帶來的也許是個副作用——當初應該練的那些“童子功”可能就直接跳過了,研究者有可能不知道那個東西是怎麼來的了。

其實任何一個算法應用都有一個核心(Core),但現在少有人去做了,大家都在上面去不停地去包裝——少有人去做巨人,但大家都願意站在巨人的肩膀上。

還有一些老的研究方向,也許它的理論有更漂亮的地方,但是因為在現階段确實不如神經網絡的這一套理論流行、應用效果更好,可能就會被慢慢遺忘,“武林秘籍”可能就失傳了。我不确定最終結果會怎麼樣,但回看過去,在深度學習火起來之前,神經網絡的研究也經曆過類似階段,那個時候是别的統計模組化架構明顯好于神經網絡,那個時候寫神經網絡的論文不少都會被拒。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q7:過去幾年你覺得智能語音領域發生的最了不起的進步是什麼?

鄢志傑:深度學習就是最了不起的進步。如果從2010年左右語音和深度學習結合的那一波技術爆發開始看,最近幾年可能算是平台期,但嚴格地說,從技術上講,過去的十年是少有的、持續進步的十年。

以前技術都是階躍性的進步,或者叫脈沖式的進步,差不多一個脈沖以後又要沉寂10年左右的時間。但近10年來确實是持續在進步的,雖然都在深度學習的大架構下,但是基本上兩三年會有一個大的模型更新。

現在的平台期我會把它形容為:雖然技術發展持續上升了10年,但是離我們解鎖下一個關鍵場景還有很長的距離。也就是說,技術發展的斜率還不夠陡峭。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q8:你在阿裡巴巴的工作狀态是什麼樣的?偏研究還是偏落地?

鄢志傑:嚴格地說,我是在探索高技術如何産生高價值的路徑。

世界上有很多是單純的高價值的事情,比如有人開玩笑說小龍蝦産業的規模曾經很長一段時間都是超過雲計算的。同樣,世界上也有很多純的高技術,包括很多基礎性的技術,例如數學研究。

我認為達摩院的定位是要找到同時滿足這兩個條件的事情,這是第一個難點。

第二個難點是在一個中國的高科技公司做這件事情,這是一種絕無僅有的體驗。達摩院跟傳統意義上西方高科技公司做研究院不一樣,跟政府資助的大學和科研院所又不一樣,所有這些事情是沒有人幹過的。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q9:到目前為止,這個體系進展如何?哪些地方比較滿意,哪些地方問題還比較大?

鄢志傑:滿意的地方,我覺得是在語音品類上。通過我們自己做研究,再做内部的應用來建構完善這些技術,然後再把這些技術變成産品放到阿裡雲上,對外輸出給别的行業。我把這部分叫做“中場”,這是比較滿意的部分。

為什麼叫“中場”,這是我的一個“前中後場”的理論,與足球有關。

足球有個最大的特點:射門10次可能隻進一次,這是和籃球很大的不同。這就像極了真正探索性的研究,就是說可能要承受90%的失敗,然後有一次能夠成功。我就把它比喻為“前場”,真正的探索式的創新出現在前場,通過不斷保持沖擊,孕育好多顆種子,最終少數一些種子能夠長出來。

而“中場”就是保持這樣的沖擊力的基礎,創新不可能突然出現,孕育種子就得有土壤。最簡單的例子是,當我有一個創新想法的時候,到底是三缺一的去幹,還是一缺三的去幹,這是個很重要的問題。

當一缺三的時候,基本上這個創新很難有效的發生;而三缺一的時候,項目就有點希望,這裡“三”就來源于中場的積累,比如今天我們要去做一個産品,發現要用到語音的某一個技術、視覺的某一個技術,而達摩院在“中場”已經有很成熟的一些積累,馬上就可以為我所用,這個時候就能站在他們的肩膀上做相應的事情。

“後場”就是真正的發動機,在達摩院裡就是比較偏純研究的團隊,研究的探索性風險極高,“中場”也要保護“後場”,使“後場”能有一個為穩定良好的環境去長期投入研究。

我現在精力主要投入在“如何讓大家有效地形成一個體系”這件事上,研究反而變成興趣了,但我依然特别享受跟“後場”的同學在一起讨論的時間。

十問科學家丨解鎖下一個語音技術關鍵場景還有多遠?

Q10:這個分類很創新,那對中場這些人的要求是什麼?

鄢志傑:舉個例子來說,AI平台類的東西,主要就是由“中場”的人來做的, 它本質上就是把AI的能力變成所有人可以“開箱即用”的一種能力,然後幫助别人去做他們的事情。比如,有人就拿着達摩院人臉識别的技術去做考勤機,有人拿着達摩院語音的技術去做客服系統等等。

繼續閱讀