天天看點

INTERSPEECH 2017系列 | 遠場語音識别技術1. 遠場語音識别技術簡介2. INTERSPEECH 2017 遠場語音識别論文介紹3.總結及技術展望

編者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥爾摩順利召開,衆多的高校研究機構和著名的公司紛紛在本次會議上介紹了各自最新的技術、系統和相關産品,而阿裡巴巴集團作為鑽石贊助商也派出了強大的陣容前往現場。從10月25日開始,阿裡iDST語音團隊和雲栖社群将共同打造一系列語音技術分享會,旨在為大家分享INTERSPEECH2017會議上語音技術各個方面的進展。本期分享的主題是遠場語音識别技術,以下是本次分享的主要内容:

遠場語音識别是語音互動領域的重要技術,目的在于在遠距離條件下(通常1m-10m),讓機器能夠識别人的語音。該技術在智能家居(智能音箱、智能電視等)、會議轉錄、車載導航等場景都有重要的應用。遠場語音識别通常采用麥克風陣列的方式收集語音,由于真實環境中存在大量的背景噪聲、多徑反射和混響,甚至是人聲幹擾,導緻拾取信号的品質下降,通常遠場語音識别準确率與近場語音識别相比會有大幅下降。

遠場語音識别系統通常包含前端信号處理與後端語音識别子產品,前端部分旨在通過語音增強的手段,包括解混響(Dereverberation)、波束成形(Beamforming)等方法來将含有噪聲和混響的語音盡可能的處理為“幹淨”的語音。而後端部分與一般的語音識别系統相同,目的在于将處理後“幹淨”的語音識别為文字。

遠場語音經常包含比較明顯的混響,所謂混響是指聲音由聲源發出後,在空氣中傳播,傳播過程中在房間的界面上産生反射、散射等波動作用,由于聲音的多次反射或散射而使聲音延續的現象,這種現象稱為混響。聲源的直達聲和近次反射聲相繼到達人耳,延遲時間小于50ms-80ms時,一般對語音識别的準确率沒有明顯影響;當延遲很大時,由于信号能量的衰減,一般也不會對語音識别造成影響;會造成影響的主要是其中的Late reverberation部分,這部分混響越明顯,語音識别的準确率就會越低。Weighted prediction error (WPE)是一種常見的解混響方法。

另一種常見的前端信号處理技術是Beamforming,Beamforming通過對比不同聲音的到達時間和麥克風間的距離來确定聲音的來源(DOA)。一确認了目标聲音的位置,我們就可以采用如空間濾波等音頻處理技術來減少噪音幹擾并增強信号品質。常用的Beamforming技術包括Delay and Sum (DS)、Minimum variance distortionless (MVDR)等。

近年來基于深度神經網絡(NN)的語音增強技術也有了快速的發展,基于NN的語音增強通常是輸入帶噪的語音,期望通過NN強大的非線性模組化能力得到“幹淨”的語音,比較具有代表性的技術包括Xu2015提出的Feature mapping以及Wang2016提出的Ideal ratio mask方法。

後端語音識别的系統架構如下圖所示,其中最主要的部分是聲學模型模組化子產品(AM)。2011年底, DNN技術被應用在了大詞彙量連續語音識别任務上,大大降低了語音識别錯誤率。從此以後基于DNN聲學模型技術的研究變得異常火熱。那麼什麼是DNN的?其實标準的DNN一點也不神秘,它和傳統的人工神經(ANN)在結構上并沒有本質的差別,隻是ANN通常隻包含一個隐層,而DNN則是通常包含至少3層以上的隐層,通過增加隐層數量來進行多層的非線性變換,大大的提升了模型的模組化能力。

INTERSPEECH 2017系列 | 遠場語音識别技術1. 遠場語音識别技術簡介2. INTERSPEECH 2017 遠場語音識别論文介紹3.總結及技術展望

CNN被用在語音識别中已經不是一天兩天了,在12、13年的時候就已經被引入到了語音識别中,那時候的卷積層和pooling層是交替出現的,并且卷積核的規模是比較大的,CNN的層數也不是特别的多,主要是用來對特征進行進一步的加工和處理,使其能更好的被用于DNN的分類。後來随着CNN技術在圖像領域的發展,情況慢慢出現了變化,人們在圖像領域的研究中發現多層卷積之後再接pooling層,減小卷積核的尺寸可以使得我們能夠訓練更深的、效果更好的CNN模型。相應的方法被借鑒到了語音識别中,并根據語音識别的特點進行了進一步的優化。

LSTM模型是一種特殊的循環神經網絡(RNN)。語音識别本來就是一個時序模組化問題,是以非常适合用RNN來進行模組化。但是簡單的RNN受限于梯度爆炸和梯度消散問題,比較難以訓練。而LSTM通過輸入門、輸出門和遺忘門可以更好的控制資訊的流動和傳遞,具有長短時記憶能力,并在一定程度上緩解RNN的梯度消散和梯度爆炸問題。當然它也有不足之處,計算複雜度相比DNN大幅增加,并且由于遞歸連接配接的存在難以很好的并行。

BLSTM進一步提升了該類模型的模組化能力,相比LSTM還考慮了反向時序資訊的影響,也即“未來”對“現在”的影響,這在語音識别中也是非常重要的。這種能力的代價就是模型計算複雜度進一步加大,并且通常需要整句進行訓練:GPU顯存消耗增大->并行度降低->模型訓練更慢,另外在實際應用中還存在實時性問題。為了克服這些問題,我們使用了Latency-control BLSTM模型,并完成了業界第一個上線的BLSTM-DNN hybrid語音識别聲學模型。

下面選了兩篇文章介紹一下本次INTERSPEECH論文,主要從聲學模型改進和遠場資料模拟兩個角度看看遠場語音識别的前沿進展。

本文提出了一種改進的LSTM模型結構:殘差LSTM(Residual LSTM)網絡。研究初衷來源于深度神經網絡訓練中常遇到的一個問題-----Degration problem,即随着網絡深度的增加訓練/開發集的錯誤率不降反增,這個問題并不是由over-fitting産生的,而是網絡學習中存在問題。針對這一問題陸續有研究人員Highway network和Residual network等結構來試圖減輕其影響。本文中研究人員對傳統的LSTM結構進行了改進,提出了一種Residual LSTM,它将網絡中前一層的輸出直連到目前層,公式及改進後的結構圖如下圖所示,該網絡相比于傳統的LSTM以及之前有研究人員提出的Highway LSTM有以下三點優勢:1.網絡參數相比于傳統LSTM/Highway LSTM更少(在論文中的網絡配置下參數量減少10%);2.網絡整體更容易訓練,這得益于Residual結構的兩個優點,一是避免了前向計算中非線性變換對資料的過度加工,二是誤差反向傳播時通過直連通路,抑制了梯度消散;3.最終的識别準确率相比統LSTM/Highway LSTM有了比較明顯的提升,且當神經網絡加深到10層時,成功避免了Degration problem的出現。

INTERSPEECH 2017系列 | 遠場語音識别技術1. 遠場語音識别技術簡介2. INTERSPEECH 2017 遠場語音識别論文介紹3.總結及技術展望

實驗在遠場開源資料集AMI上進行,該資料集模拟會議場景,資料是遠場實錄資料并配有對應的近講資料,測試時使用存在重合語音幹擾和不存在重合語音幹擾兩個資料集進行測試,結果如我們之前的分析。

INTERSPEECH 2017系列 | 遠場語音識别技術1. 遠場語音識别技術簡介2. INTERSPEECH 2017 遠場語音識别論文介紹3.總結及技術展望

本文來自Google,論文把研究點放在了如何利用近場語音資料模拟遠場語音資料上。由于真實環境中存在大量的噪聲、多徑反射和混響,導緻拾取信号的品質下降,通常遠場語音識别準确率與近場語音識别相比會有大幅下降,是以我們需要大量的遠場語音進行模型訓練以幫助提高識别準确率。遠場語音識别通常采用麥克風陣列的方式收集語音,受裝置、場地等影響,錄制真實遠場資料比錄制近場資料成本更高,大量的真實遠場資料通常不易獲得。研究人員利用近場資料模拟産生遠場資料,用于模型訓練。好的資料模拟方法可以使模拟産生遠場資料與真實遠場資料“更像”,進而更好的幫助到模型訓練。本文模拟資料采用的公式和模拟場景如下圖所示,房間沖激響應通過Image method模拟獲得,噪聲點的數量在0到3之間随機選擇,模拟出的遠場資料信噪比在0-30dB之間,目标說話人到麥克風陣列的距離為1-10m之間。

INTERSPEECH 2017系列 | 遠場語音識别技術1. 遠場語音識别技術簡介2. INTERSPEECH 2017 遠場語音識别論文介紹3.總結及技術展望

聲學模型使用fCLP-LDNN模型。模型結構和最終的結果如下圖所示,可以看到在有噪聲和有說話人幹擾的情況下,使用模拟遠場資料訓練得到的聲學模型相比使用近場幹淨資料訓練得到的模型,在魯棒性方面優勢明顯,字錯誤率的相對下降可以達到40%以上。論文中的資料模拟方法被使用在了Google Home産品的模型訓練中。

INTERSPEECH 2017系列 | 遠場語音識别技術1. 遠場語音識别技術簡介2. INTERSPEECH 2017 遠場語音識别論文介紹3.總結及技術展望

随着智能音箱、智能家居等産品和理念的推廣普及,遠場語音識别正變得越來越重要,同時随着技術的進步,遠場語音識别也正變得越來越可用。未來一段時間内我們認為遠場語音識别技術的研究重點将集中在以下幾個方面:1.更好的前端處理技術,如給予深度神經網絡的前端處理;2.更好的後端模組化技術;3.前後端聯合模組化訓練;4.遠場資料模拟技術,這對于産品初期的模型疊代尤其重要;5.基于噪聲環境、場景、SNR等的模型快速自适應。相信通過學術界和工業界的努力,遠場語音識别技術會變得更加成熟、更加易用。

繼續閱讀