天天看點

摘取人工智能的明珠:達摩院語音技術發展之路

演講嘉賓簡介:鄢志傑,達摩院語音實驗室負責人,IEEE senior member

以下内容根據演講視訊以及PPT整理而成。

觀看回放

https://developer.aliyun.com/live/2640

本次分享主要圍繞以下三個方面:

一、達摩院語音實驗室使命

二、打造完全自主全鍊路技術棧

三、案例分享

達摩院可能是大家即熟悉又陌生的組織。自2017年開始,達摩院走過了2年多的時間,正如馬雲老師在2017年雲栖大會上所提到的,達摩院的定位即不是Research for fun,也不應該是Research for profit,而是Research for profit and fun。那麼什麼樣的語音相關的Problem 是即profit 又fun的?

1.語音互動無處不在

達摩院語音實驗室本着讓語音互動無處不在的宗旨,對語音技術進行探索和研究,将過往的實驗室模型和技術應用到商業場景中,不斷打破行業邊界。從最開始的借助頭戴式耳麥和桌面PC進行語音識别,逐漸演化到使用手機就可以進行精确的語音識别,以及與遠距離智能音響、智能冰箱、智能機器人等進行語音互動,語音技術在不斷的解鎖新的使用場景。達摩院語音實驗室也希望不斷的延伸語音技術的觸角,讓語音技術滲透到人們生活的方方面面,連接配接人與網際網路。

摘取人工智能的明珠:達摩院語音技術發展之路

2.予以行業實踐者擴充語音技術邊界

達摩院語音實驗室的另一個使命是予以行業實踐者擴充語音技術邊界。傳統行業中,語音技術更多是掌握在大公司手中,并服務于更宏大的系統中,如微軟研究将語音技術研發為Windows 和Office的輸入工具。但随着技術的發展,阿裡希望為更多行業實踐着提供開箱即用的語音技術,将語音技術拓展到其它的行業中,實作語義技術更高的商業價值。“以産品為核心,已技術為基礎,以市場為導向”是達摩院語音實驗室的口号,從這句話可以看出達摩院與傳統研究院存在諸多不同。達摩院投入了非常多的人力,物力研究核心技術,同時将researcher 和engineer放在同一個組織中,使得最源頭的研究迅速轉化為産品,同時通過産品收集回報,為後續研究選題提供基礎。最後希望通過市場為導向,指導研發的選題,使得研究可以與商業世界産生聯系,以最快的速度産品化,實作更高的商業價值。

阿裡自2014年開始着手研究語音技術,并迅速組建了世界級科學家和工程師的專業團隊。團隊成員多元化,來自兩岸三國五地,包括北京、杭州、西雅圖、矽谷和新加坡等,海納百川,發揮衆家所長。阿裡語音AI一直強調搭建全鍊路的技術棧,甚至從最源頭的聲學設計、麥克風陣列設計、硬體電路到上層的語音合成、語音識别、以及問答系統、以及最上層的雲端工業級語音互動系統定制平台都配有專門的團隊。之是以沒有借助第三方企業的技術是因為語音不僅是一種科學還是一種技術,除了解決問答的問題,更多的是應該提供更好的語音互動體驗。隻有下苦功,投入很多人力物力搭建全鍊路技術棧才能使得最終的語音互動系統效果更好、同時提供優良的使用者體驗。

1.語音技術的作用

語音技術是很重要的橋梁,包括人與人之間的溝通和人與網際網路的互動,語音都是最自然,最便捷的溝通橋梁。阿裡雲語音技術團隊的整體目标定位是為阿裡巴巴經濟體及阿裡雲客戶,供給無處不在的語音互動智能服務。其中服務是通過統一的平台型産品,同時服務阿裡内部及外部使用者。供給是通過提供具備優秀語音原子能力和互動體驗的平台型産品,以“被內建”的方式服務使用者,幫助他們在其所在的行業中創造價值。并且相信在未來,所有的空間,包括家居、車載、辦公、以及公共空間,語音的觸點将無處不在。

2.阿裡巴巴經濟體語音技術大圖

語音實驗室最核心的傳遞物是阿裡語音AI,阿裡雲對外的客戶可以同時享受到與内部服務同樣的技術。下圖展示了阿裡語音AI的技術大圖,其中語音技術、互動技術、工程技術作為基礎研發工作會沉澱為平台産品,如語音原子能力服務、語音互動智能服務和智能拾音硬體等。語音原子能力服務包括語音識别、語音合成、聲紋等比較自恰的服務。這些服務進行組合,構成語音互動的服務。目前,達摩院語音實驗室正在研究通過拾音硬體将非結構化的語音資訊轉化成結構化資訊。最上層則會服務于各種各樣業務的應用。

摘取人工智能的明珠:達摩院語音技術發展之路

阿裡雲通過多年的積累,也獲得了較為顯著的成果。通過與全球領先的語音智能公司的同場競技,阿裡語音AI與谷歌、亞馬遜等公司同時被譽為2019年Top 10 breakthrough technologies之一。通過大家在研發側與應用側的努力,使得阿裡語音AI在技術和應用層面都走在了業界領先位置。

摘取人工智能的明珠:達摩院語音技術發展之路
3.阿裡語音AI技術

語音識别技術:語音識别技術是研究最基礎的Language model,Acoustic model,Decoder和Online service 的模型組合。通過模型的演化和疊代,制造更多的應用。好的模型意味着更高的accuracy,更低的消耗,以合理的成本實作語音AI的雲服務化。

摘取人工智能的明珠:達摩院語音技術發展之路

語音合成技術:語音合成與語音識别相反,指将語音轉成文字。達摩院語音實驗室自主研發的KAN-TTS的語音合成技術,融合了目前主流的端到端的TTS技術和傳統TTS技術,從多個方面改進了語音合成,提升了語音合成的自然度。

摘取人工智能的明珠:達摩院語音技術發展之路

語音對話技術:阿裡也在不斷的提升語音對話技術,無論是ESIM的開源,還是取得DSTC-7冠軍,異或取得Commonsense AQ冠軍,都是阿裡在語音對話技術方面的自主研發所取得的成果。

摘取人工智能的明珠:達摩院語音技術發展之路

1.對内服務案例

阿裡經濟體本身就是語音技術可以施展才華的廣闊場景。下圖介紹了在阿裡巴巴經濟體對内服務的典型案例。如淘寶和支付寶的語音助手,可以幫助服務電話使用者;高德語音助手為使用者提供喚醒功能和語音導航功能;釘釘可以将使用者的輸入語音實時傳化為文本,解放接收端的壓力;以及目前處于市場領先地位的天貓精靈智能音響;甚至在海外國家提供螞蟻金服的智能語音識别服務。在内容安全領域,保障非文字内容的安全。甚至在疫情期間,阿裡巴巴智能疫情機器人成功落地全國27個省份,累計為39座城市撥打超3000萬的防控摸排電話,完成100萬人次的線上咨詢服務,有效緩解了防控一線人力不足的問題。

摘取人工智能的明珠:達摩院語音技術發展之路
2.零時差上雲

如果大家對語音技術感興趣,在阿裡雲官網就可找到想應的技術及解決方案。如語音AI原子能力中包括錄音檔案識别、實時語音識别、一句話識别、語音識别自學習、KAN-TTS語音合成、聲優工廠等。在語音AI的技術解決方案中提供了雲小蜜,智能對話分析,内容安全及智能外呼等案例。

4.語音識别自學習服務

任何人都可以通過語音技術解決自身行業中的問題。但目前語音AI技術存在一個明顯的行業間的Gap,即很難有一種技術在不同領域中都達到很高的accuracy,如金融行業和電商行業。需要根據具體的領域及行業特性,制定具體的語音識别模型。與傳統定制模型不同,阿裡語音識别自學習體系是通過在雲上提供具體的語音技術和工具,讓實踐者自主的進行學習,使用者隻需拿出一些行業資料,阿裡語音識别自學習體系為其提供資料标注,模型訓練,模型部署等服務。

摘取人工智能的明珠:達摩院語音技術發展之路

語音識别自學習服務案例: 以授人以漁的方式,加速語音技術在不同行業中創造更多的價值。阿裡除了提供開箱即用的功能,還給合作夥伴提供了多種工程化的服務。如中國移動10086使用阿裡語音識别自學習功能助力語音導航,省去了大量的營運成本,并解決了大量的使用者問題。

摘取人工智能的明珠:達摩院語音技術發展之路

基于KAN-TTS的語音合成定制功能,可以解決傳統的人生定制方案所帶有的機械感語音問題,是的錄音内容更拟人化,大大縮減資料的收集時間,平均以月為機關定制語音合成模型。

摘取人工智能的明珠:達摩院語音技術發展之路

目前,有很多行業都在使用阿裡的智能語音服務。阿裡語音AI為浙江電力提供虛拟排程員,将語義了解、知識圖譜、智能決策等功能進行全面結合,減少了80%的人工重複工作,幫助客戶提升工作效率,減少了上億元的生産運維支出。

摘取人工智能的明珠:達摩院語音技術發展之路

阿裡語音AI為智慧地鐵提供語音售票及問詢機。通過在智慧交通領域與高德、支付寶深度融合,使用者隻需語音搜尋目的地,就可以為其提供線路規劃,無現金支付等功能。并且在嘈雜的環境中依然可以進行語音的互動,提供周邊車站,設施等資訊的自主問詢功能。智能語音售票及問詢機已在全國多個城市落地,如北京、上海、杭州等。

摘取人工智能的明珠:達摩院語音技術發展之路
摘取人工智能的明珠:達摩院語音技術發展之路

AIoT也是目前大家廣泛關注的領域,如下圖中的右側是一個小的語音模組,左側是開關面闆。通過語音模組的嵌入可以瞬間與雲進行打通,同時具備語音互動的能力。

摘取人工智能的明珠:達摩院語音技術發展之路

繼續閱讀