天天看點

阿裡達摩院:以語音為代表的人機互動或許是未來硬體和機器人的标配

阿裡達摩院:以語音為代表的人機互動或許是未來硬體和機器人的标配

【摘要】語音和多模态人機互動會是以機器人為代表的智能硬體的必備特征, 實踐中首先要克服的是聲學環境的複雜性。在聲學前端核心技術上, 深挖信号處理的線上自适應能力, 以及經典信号處理與任務模型的聯合優化是我們的技術特色, 也是以在高噪聲、高成本效益等實際業務場景都創造了多項業内第一。聲學模組和晶片化也是克服場景碎片化的有效手段, 也是以快速合作落地了一批智能硬體産品, 赢得了客戶的口碑,為端側計算能力的平台化, 探索了有生命力的路徑。2021年以來,機器人賽道受到資本熱捧。僅前10個月拿到融資的機器人項目就有299個,其中253個集中在C輪及以前,79個項目的融資額在億元人民币以上。

天眼查資料還顯示,今年新增的機器人相關企業就超過10萬家。截至目前,我國有超過32萬家機器人相關企業(企業名稱或經營範圍包含機器人)。在地域上,廣東省機器人相關企業最多,有超過7萬家,占比達22.02%。是第二名江蘇的近2倍。 

是以在這個産業和資本的雙重背景下,36氪于11月25日在深圳舉辦了超前體驗·機器人峰會。此次峰會邀請了衆多投資人、科學家、學者、優秀創業者以及相關從業者,共同探讨行業新趨勢,以及在新環境下如何讓技術走進大衆生活。嘉賓包括中國工程院院士譚建榮、達晨财智業務合夥人任俊熙、藍馳創投董事總經理曹巍、阿裡巴巴達摩院研究員付強、高仙機器人創始人兼CEO程昊天、大族機器人CEO王光能、未來機器人創始人李陸洋、雲迹科技執行總裁兼CTO林小俊等多位嘉賓。

“語音和多模态的人機互動會是以機器人為代表的智能硬體必備特征,實踐中首先要克服的是聲學的複雜性。”阿裡達摩院擁有應對不同聲學環境下的思路和技術鍊條。

以下是阿裡達摩院語音實驗室付強先生的現場演講《複雜聲學環境下的語音互動》(經編輯):

阿裡達摩院:以語音為代表的人機互動或許是未來硬體和機器人的标配

“其實在無論是智能硬體還是特指機器人這個行業,以語音為代表的人機互動是一個比較重要的特征。剛才我聽達晨财智的任總也提到無論是VR、AR、機器人還是别的一些行業,語音互動和知識圖譜的應用,都是一個必選項。但是這種人機互動,特别是語音互動的技術在應用上的問題在哪裡?首先是不同的場景會遇到不同的聲學問題, 包括背景噪聲、混響等聲學環境特性的差異。模組化是應對各種碎片場景的一個常用的技術手段。這是什麼意思呢?就是說我們希望能夠通過對聲學器件、作業系統、聲頻算法和互動應用排程, 包括連接配接協定等做成從軟體到硬體的一體化封裝,去應對不同的場景裡的離散性的問題,使得方案更加得平台化,與聲學和音頻相關的技術也能被沉澱。另一方面,就是提升跟客戶對接的效率,包括我們也提供二次程式設計能力。

剛才我們講了應對不同的聲學場景下的思路和技術棧,接下來介紹阿裡達摩院的整個語音AI技術棧。

一個标準的語音互動鍊路,端上首先是有信号處理,然後是語音喚醒, 本地識别等,還有服務智能硬體所不可缺少的聲學設計配套。雲端的語音服務主要就是識别、合成、對話管理,還有聲紋相關的技術棧等,這些構成了一個完整的從端到雲的技術鍊。

下面逐一介紹一下整個技術鍊條上我們一些關鍵技術的突破,主要是近期比較着重打造的東西。

首先講聲學前端, 這一塊是跟場景,硬體适配最前端的一個接口。在我們這個方案裡,比較重要的特色是強調了信号處理的重要性,如果說大家可能熟悉這個領域中的一些技術的前沿成果的話,可能會關注到比如說深度學習技術對互動中的滲透,但是從我們的實踐和對這個行業的了解來看,在相當一段時間内經典信号處理裡的作用一定會被保留。這是為什麼呢?就是我們講到的場景的複雜性,不是說通過較為單一的場景的樣本的資料就能獲得全場景的聲學環境适配能力, 經典信号處理理論存在這這裡的意義在于線上的自适應優化,這是“魂”。

在這個前提之下,我們着重發展一些我們有特色的信号處理相關的技術,比如說盲源分離,它的特點是什麼?就是比較适合小陣列,在消費電子行業裡,當麥克風的個數不能夠太多但是性能要求又比較高這樣的場景,這是選擇這一路線的基礎依據。特别是我們前期的工作,把它形成了以盲源分離理論為核心的對環境噪聲、房間混響和裝置回聲的統一處理架構, 也是我們在該領域應用研究層面的學術貢獻。由相關理論支撐的AEC算法甚至還在由國際權威學術機構組織的挑戰賽上拿到國内第一的成績。

接下來是高抗噪的視覺聽覺多模态融合技術,視覺的融合對于聽覺來講是一個更好的補充。在業内來講,我們的多模态融合技術是走向實踐比較早的,我們2018年就跟上海地鐵合作,在地鐵這個場景裡首次把多模态語音互動技術用到了實踐。這張圖顯示了多模融合算法處理基本流程和原理,我們把端上離線識别的人臉人體這些資訊用于跟我們的信号處理相關的資訊做前端融合,實作了更有效的應對語音幹擾的機制。

回到方案層面,剛剛講了聲學的這種模組化,我們在近幾年時間内提煉出來幾套應對不同場景的模組方案:

第一個,我們講高成本效益,這是是什麼意思呢?舉個例子,比如說智能音箱、家電等,對成本要求比較敏感,對性能要求也比較嚴苛,追求高成本效益的場景。

第二個,就是高性能,這個性能主要展現在對噪聲環境的魯棒性。

第三個,就是多模态,這裡的多模态的, 更多還是指處理複雜聲學場景的技術能力。

還有一點,就是晶片化,也是我們模組化的一個極緻表現, 隻有算法和晶片設計有機融合, 才能産生極緻成本效益的解決方案, 後面也有一些應用案例。

接下來講講我們語音技術的幾個落地案例。過去幾年我們的語音互動技術和方案以軟核形式落地了海爾、康佳,還有一些與優酷合作的投影儀等跟與家庭場景相關的智能硬體, 同時也提供了拾音模組和聲學結構的參考設計, 包括業内唯一的聲學裝配效果産線專業測試裝置。從規模上來講,幾年下來大約有近千萬級累計裝機量, 從客戶的滿意度調查回報上, 也顯示出小陣列條件下難得的較強抗賣場環境噪聲能力。

接下來,就是我剛剛講的高成本效益的模組和晶片的一些落地案例,這裡面包括喜馬拉雅的音箱,以及它的AI早教機,這是一種兒童教育硬體,也算是一種小型的機器人。然後就是與天貓精靈一起合作的車載精靈和兩輪電動車。客戶是對該晶片的選擇, 首要的一點就是高成本效益這一主打特點。這個特點的形成是由包括從端側算法的路線選擇, 與平頭哥團隊共同進行的算法深度工程優化和根據算法定義硬核算子等多方面的努力得到的結果。同時也包括我們整體的售後技術支援和産品持續更新能力。

高性能語音模組方案是和天貓精靈合作并落地的,第一個産品就是科沃斯掃地機N9+,也是業内第一台能在行進過程中進行語音互動的掃地機, 在今年6.18上市。它克服的問題是什麼呢?是高自噪、大回聲,移動遠場和低算力等技術挑戰。該方案在掃地機行業的推廣應用正在進行中, 同時我們在該場景下, 更低資源需求和更高性能的版本也即将釋出。第二個案例就是這個機器狗,它本身噪音倒沒有那麼大,但是它應用場景可能是比較嘈雜的,它經常在一些展會等較吵鬧的公衆場景做示範。比如今年雲栖大會上, 就在有公司内外的一些重要上司和嘉賓圍觀的情況下, 順利完成了所有的人機互動動作示範。

下面講講多模态互動技術的應用,就是靠純聲學不能解決問題的時候,需要依靠音視訊融合的技術和方案。從2018年開始在上海地鐵全面落地,到近幾年北京,哈爾濱、南京、成都等城市的地鐵裡,由于我們的推動,你會看到新開的地鐵線裡,語音互動已然成為購票機的标配。當然,現在這個技術不僅僅是用在購票這個場景,更多的是在互動服務機器人或者服務大屏的智能查詢,比如說醫院的導診,政務、金融這些問詢場景。這種非接觸的語音互動,在疫情的背景下,也會是一個逐漸強烈的需求。

另外兩個案例,一個是跟釘釘合作的智能無人前台,大家都知道考勤機, 這個算是考勤機的一個智能版本,我直接說出我想找誰,通過企業通訊錄的資料比對, 然後它就可以直接視訊通話,來去替代前台人工的服務,這也算是前台服務機器人的一個表現形式。右邊這個本來是一個視訊,但是今天沒有時間去展示,我就簡單說一下,這其實是一個語音自助售貨機,展示的理念就是一方面它能夠做語音的互動,另一方面它有主動互動的功能,售貨機能自動打招呼,檢測你是男性女性,還有年齡大小,能主動給你做産品的推介,吸引你過來。我相信在機器人這個場景裡,主動互動也是一個非常有價值的技術。”

繼續閱讀