在今年的烏鎮世界網際網路大會上,搜狗展出了一項黑科技——唇語識别,12月14号搜狗在北京又公開示範了這項技術。作為行業領先的唇語識别系統,搜狗在非特定開放口語測試中,通用識别的準确率在60%以上,而在車載、智能家居等垂直場景下,已達到90%的準确率。
雖說搜狗是國内第一家公開示範這項技術的公司,但早在2017年3月,海雲資料創始人兼CEO馮一村在亞洲大資料可視分析峰會上,就釋出了重慶市公安科研所與海雲資料共同研發的唇語識别技術,它的中文識别模型準确率已達到70%。
而谷歌DeepMind團隊,在2016年利用BBC視訊對他們的AI系統進行了5000個小時的訓練,測試時唇語識别正确率達到了46.8%。
這并不是場獨角戲,那唇語識别到底是何物?未來又有着怎樣的想象空間?
唇語識别隻是語言識别的進化
雖說唇語識别近期才進入公衆視野,但唇語識别技術的發展可以追溯到上世紀80年代。
當時,語音識别技術迅速發展,出現了許多實用的語音識别系統,然而這些系統抗幹擾能力不強,在有背景噪音與交叉談話的情況下,它們的性能會大幅降低。而在自然應用環境中,噪音現象十分常見,研究者們為了解決上述缺陷,一方面采用降噪技術降低幹擾,另一方面開始尋求其它解決方法。
那唇語識别技術是怎麼發展來的呢?語音識别的研究者們突然發現,其實人類的語言識别系統是由兩個感覺過程構成的,聲音雖然是人類語言認知過程中最重要的方式,但在日常交流中,我們還會用眼睛看着對方的口型、對方的表情等,來更加準确的了解對方所講的内容。受此啟發,研究者們開始研究唇語識别。因為唇語識别完全不會受到噪聲幹擾,在多人對話中也能有效進行區分,這就有望解決語音識别的缺陷。事實上也是,将唇語識别與語音識别結合起來能夠大大提高系統的正确率和抗幹擾能力,于是唇語識别便有了更多的發揮空間。
換湯沒換藥,近30年的發展,核心步驟還是三步
經過研究各類資料,智能相對論(微信id:aixdlun)發現,唇語識别技術從攝像頭輸入到了解輸出,中間最重要的是這三個單元——視覺前段、視覺特征提取、以及唇動識别。
(圖為:唇語識别的步驟)
其中,視覺前段包括人臉檢測與唇的檢測和定位,早期檢測方法比較笨拙,不允許人臉自由移動,有些還會手動添加特定标志來跟蹤唇動。目前的檢測方法主要是基于算法,先用人臉檢測算法得到人臉然後有針對性的定位唇動;或者利用最佳閩值二值化算法,以唇的邊緣是平滑的,和左右形狀對稱為條件,作為二值化閩值標明的限制條件,得到平滑而對稱的唇圖像。
視覺特征提取是對擷取的唇圖像進行處理得到對應特征,特征提取方法主要分為兩大類:基于像素的方法和基于模型的方法。所謂基于像素的方法,就是利用包含嘴的灰階級圖像或利用經過預處理後得到的特征向量的一類方法。這種方法的缺陷在于對二維或三維的縮放、旋轉、平移、光照變化以及說話人的變化都很敏感,會造成提取過程中特征丢失的情況,不能得到完整的特征資訊。
而搜狗所用的基于模型的方法就是,對唇的輪廓建立一個模型,将特征資訊包含在這個模型之中,并對模型中特征資訊的變化用一個小的參數來描述。這類方法的優點是重要特征被表示成二維參數,不會因光照、縮放、旋轉、平移而改變,缺點是忽略了細微的三維資訊,可能會對後面的識别過程造成影響。
目前唇動識别采用的技術大多是隐馬爾可夫模型,該技術基本思想是,認為唇動信号在極短時間内是線性的,可以用線性參數模型來表示,然後将許多線性模型在時間上串接起來,組成一條馬爾可夫鍊。馬爾可夫鍊可以用來描述統計特征資訊的變化,并且這種變化過程與人的唇動過程是相吻合的,是以隐馬爾可夫模型能夠識别唇動并與相應語句比對轉化成文字。
看似應用方向很多,最重要的還是輔助語音識别
唇語識别技術的應用方向有很多,比如手語和聽力障礙患者的輔助教育、國防反恐方面的情報擷取、個人的身份識别以及公共安全領域等都擁有巨大的應用潛力。但在目前來看最大的應用還是輔助語音識别,畢竟它自誕生之初就是為了解決語音識别的噪音問題而研發的,這也會使得語音互動更加完善。
說到這裡就不得不提到智能音箱,其實除搜狗之外,很多大公司也在布局語音互動,國内有阿裡巴巴、百度、科大訊飛,國外有蘋果、谷歌、微軟、亞馬遜。在今年7月阿裡巴巴就釋出了一款智能音響天貓精靈,可以接受各種語音指令,搭載中文人機交流系統AliGenie,有望成為家庭智能小助手。在11月16日百度也推出了首款智能音響raven H,其采用19x19的點陣觸摸屏,内置DuerOS 2.0語音互動系統,擁有語音和控制器兩種互動方式。其餘還有京東的叮咚智能音響,小米的小愛同學,喜馬拉雅的小雅音響等智能音響産品。對于這些公司而言,似乎不出一個智能音響都不好意思說自己在人工智能領域混。
那智能音響到底與唇語識别有啥關系?大廠們紛紛推出智能音響的原因是看到了新型互動方式的大趨勢,但是智能音響能夠滿足需求的場景較少,且智能音響還有兩大頑疾——抗噪音能力與遠場互動能力較低。
根據聲學線上的測試,即便是市面上最主流的智能音響,在抗噪音能力與遠場互動能力上的表現也不盡如人意,5米的中短距離上有很多失誤。
(圖為:5m 距離智能音響喚醒失敗次數統計)
而且,傳統語音互動對輸入音頻要求高,在背景噪音大時很容易失效,若人與機器再隔得遠一點,失效的情況就更加嚴重了。但唇語識别就可以解決這兩個問題。
若要快速普及,還有兩個問題待解
自出現唇語識别技術出現起,就有聲音說唇語識别是語言互動的高階戰,甚至可能帶來一場革命。不過,根據智能相對論(微信ID:aixdlun)的觀察,目前來說,唇語識别還不能快速普及。這主要的問題在:
一、攝像頭錄入存在很大的限制,不能完全滿足日常互動需求。在目前的唇語識别系統中,獲得的嘴唇視覺特征資訊都是正向的,這就意味着你與它互動時,必須時刻正對着它,第一視角被其牢牢占據,這在真實應用場景下難以達到。要能夠應用更多的場景,應該使人在側着身子說話時也能被檢測識别,這要求在人臉識别、唇的檢測與定位方面研究出更強的定位、跟蹤算法,提高算法的普适性,使之适用于非特定姿勢和位置的識别定位,并且唇動識别技術也要提高,使之能處理非正向的、較不完整的視覺特征資訊。
二、識别的準确度也是一個關鍵的問題,在有關安全的場景下,準确度是不容有差的。但我們知道其實口型與拼音序列是一對的多關系,如 zhi、chi、shi對應的口型序列是一樣的,單純利用視覺特征難以區分,會造成資訊識别錯誤,處理這個問題,傳統的技術方法是文法型語言模型,它基于人工編制的語言學文法,這種語言模型一般用于分析特定領域内的語句,無法處理大規模的真實文本。目前很多識别系統是人工限定的架構,在某一場景中對可能會出現的語句進行了很多設定,這是搜狗唇語識别系統在垂直場景(如車載)中表現得很好的原因,這同樣也是它還不能大規模應用到其他場景的原因,因為要對所有場景進行設定,幾乎是不可能的。
不過,我們依然要滿懷信心,随着人類社會的發展,真實資訊越來越多,處理資料的手段也越來越豐富,基于語料庫的統計語言模型發展迅速,借助于統計語言模型的機率參數,可以估算出自然語言中每個句子出現的可能性,并通過對語料庫進行深層加工、統計和學習,擷取自然語言中的語言知識,進而可以處理大規模真實文本,并能識别出語言中細微的差别。目前在通用識别場景的準确率隻有60%到70%,雖然稍顯不足,但可以預見,随着大資料與人工智能的發展,未來的識别準确率會達到更高。
這看起來,一個新的時代正向我們迎面走來。