天天看點

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

編者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥爾摩順利召開,衆多的高校研究機構和著名的公司紛紛在本次會議上介紹了各自最新的技術、系統和相關産品,而阿裡巴巴集團作為鑽石贊助商也派出了強大的陣容前往現場。從10月25日開始,阿裡iDST語音團隊和雲栖社群将共同打造一系列語音技術分享會,旨在為大家分享INTERSPEECH2017會議上語音技術各個方面的進展。第一期分享的主題是語音識别技術之自适應技術,以下是本次分享的主要内容。

1. 語音識别技術中的自适應技術簡介

語音識别中的自适應,即針對某一個說話人或者某一domain來優化語音識别系統的識别性能,使得識别系統對他們的性能有一定的提升。語音識别的自适應技術的目的是為了減少訓練集和測試集說話人或者domain之間差異性造成的語音識别性能下降的影響。這種差異性主要包括語音學上的差異還有生理上發音習慣上不同導緻的差異性等等。自适應技術主要被應用于語音識别技術相關的産品,還有針對VIP客戶的語音識别等。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

上述的差異性問題,它容易造成說話人或者domain無關的識别系統性能上不好,但是如果針對該說話人或者domain訓練一個相關的識别系統,那麼需要收集很多資料,這個成本是很高的。而語音識别中的自适應技術作為一種折中,它的資料量較少,并且性能上也能達到較好的效果。

語音識别中的自适應技術有很多,根據自适應的空間,可以分成兩類:特征空間自适應和模型空間自适應。對于特征空間自适應來說,它試圖将相關的特征通過特征轉換成無關的特征,進而能夠和無關的模型相比對。而對于模型空間的自适應來說,它試圖将無關的模型轉換成相關的模型,進而能夠和相關的特征相比對。總而言之,這兩類算法目的是為了讓相關的特征與無關的模型相比對。

2. INTERPSEECH 2017 paper reading

2.1 Paper 1

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

第一篇文章的題目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition,它來自蒙特利爾大學。這篇文章的主要思想是将layer normalization的scale和shift兩個參數由上下文無關的變成上下文相關的,進而根據上下文資訊來獲得動态的scale和shift。這是一種模型空間的自适應。它的主要創新的地方主要是,它不需要自适應階段(自适應階段就是使用目标 domain的資料進行自适應,進而能夠學習到目标domain的知識),另外,它同樣不需要提供包含說話人資訊的相關特征,例如i-vector等等。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

DLN對應的公式如上圖右邊所示,首先,取前一層的minibatch ( $T$ )大小的隐層矢量或者輸入矢量$h^{l-1}_t$進行summarization,進而獲得$a^l$。然後,通過線性變換矩陣和偏置來動态地控制scale ( $\alpha^l_g$ )和shift ( $\beta^l_g$ )。

同時,在原來的CE訓練的基礎上,在目标函數上增加一個懲罰項(上圖的右下角$L_{var}$),用于增加句子内的variance,進而summarization出來的資訊會更加具有區分性。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

這篇paper主要是在81小時的WSJ以及212小時的TED資料集上進行實驗,WSJ的訓練集包含283個說話人,TED的訓練集包含5076個說話人。

首先,在WSJ資料集上對比LN和DLN之間的性能,性能主要包括開發集和測試集的FER和WER(FER表示幀錯誤率,WER表示詞錯誤率)。可以看出,除了測試集WER外,DLN均優于LN。文章分析,這是由于WSJ的說話人數目較少,導緻句子間的差異性不明顯,同時WSJ資料集是在安靜環境下錄制的,句子都比較平穩,DLN不能夠起作用。

在TED資料集上的結果如第二個表格所示,發現在四個性能參數下,DLN均優于LN。文章對比WSJ和TED資料,TED資料集能夠取得比較好的性能的原因是,TED資料集較WSJ speaker數目更多,句子數更多,variability更加明顯。通過這篇文章,我們可以發現這種動态的LN與句子的variability相關。并且總體上看來,DLN是要優于LN。

2.2 Paper 2

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

第二篇文章的題目是Large-Scale Domain Adaptation via Teacher-Student Learning,它來自微軟。這篇文章的主要思想是通過teacher/student的結構來進行domain adaptation。這種方法不需要目标 domain的帶标注的資料。但是,它需要和訓練集相同的并行資料。它的創新點和價值主要在于,這種方法可以使用非常多的無标注資料,同時借用teacher network的輸出來進一步提升student模型的性能。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

将teacher/student 簡稱為T/S。T/S的訓練流圖如上圖右邊所示。Figure 1 中的左側為teacher network,右側為student network,它們的輸出後驗機率分别設為$P_T$和$P_S$。

student network的訓練過程:首先,将teacher network複制一份作為student network的初始化。然後,利用student domain data和teacher domain data通過對應的網絡獲得相應的後驗機率$P_T$和$P_S$。最後,利用這兩個後驗機率計算error signal,進行back梯度反傳更新student network。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

本paper的實驗是在375小時的英文cortana資料上進行的。測試集根據不同的domain,有不同的測試集。

針對幹淨/帶噪,在Cortana測試集上進行實驗。首先,使用teacher network進行測試,發現在帶噪語音上測試性能(18.8%)要遠差于noise-free的語音(15.62%)。如果通過仿真的方式來訓練teacher network,發現noisy的測試性能(17.34%)有一定的提升,這個等價于在student network上使用hard label來訓練。第四行和第五行使用T/S 算法,在同樣資料量上,soft label (16.66%)要優于hard label (17.34%)。如果将訓練student network的資料增加到3400小時,性能會有進一步的提升(16.11%)。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

對于成年人/小孩來說,實驗首先将375小時中的女性以及兒童資料去除,獲得adult male 模型。實驗發現,小孩的識别性能很差,分别是39.05和34.16。與幹淨/帶噪相同,在使用T/S算法後,能夠在性能上獲得進一步的提升,并且資料擴大對于性能是有優勢的。

2.3 Paper 3

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

第三篇文章是來自香港科技大學和谷歌的文章。這篇文章主要的想法和創新點是将Factorized Hidden Layer (FHL)的自适應方法 應用于LSTM-RNN。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

對于FHL adaptation算法來說,它在說話人無關的網絡權重$W$基礎上加上一個說話人相關的網絡權重,進而獲得說話人相關的網絡權重$W^s$。根據公式(7),我們可以看到,這個SD transformation是根據一組矩陣基$(B(1),B(2),...,B(i))$通過線性插值得到。同樣,對神經網絡的偏置$b$也可以進行相應的說話人相關變換。

但是,在實際實驗中,由于矩陣基會帶來大量的參數引入,這些矩陣基都被限制為rank-1,是以公式(7)可以進行一些變換,如上圖右邊所示。由于矩陣基為rank-1,那它可以被表示成一個列向量$\gamma(i)$和一個行向量$\psi(i)^T$相乘的形式。同時,插值矢量被表示成對角矩陣$D^s$的形式。這樣便獲得三個矩陣$\Gamma$、$D^s$和$\Psi^T$連乘的方式,友善模型訓練。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

本文還介紹了speaker-dependent scaling。它将LSTM記憶單元中的激活值進行speaker-dependent scale。通過公式帶入,發現,隻要對每一個說話人學習$z^s$即可以進行說話人相關的scaling。但是這種算法存在一個問題,$z^s$的次元與網絡的層寬相關,參數量大。是以,一種subspace scaling的方法被提出,它通過一個固定次元的low-dimensional vector $v^s$來控制$z^s$,$v^s$的次元遠小于$z^s$,進而大大地減少了說話人相關的參數量。

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

本paper是在78小時的資料集上進行的。上圖中的表格表示使用文章中的算法的最終WER。表格中,none表示不使用任何自适應算法,SD bias表示FHL中不使用SD權重矩陣,僅使用SD 偏置。CMLLR是一種自适應算法。首先,文章中的算法(Best)相比于SD bias和CMLLR取得了最好的性能。然後,LSTM-RNN取得的識别性能的提升少于DNN,說明在LSTM-RNN上進行自适應難度更大。

3. 總結

通過調研閱讀今年INTERSPEECH的自适應技術相關的論文,受益匪淺,主要是研究者們提出了很多有意思的想法。希望大家通過我的這篇文章能夠對自适應技術有一定的了解。

4. 參考文獻

[1] Kim T, Song I, Bengio Y. Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition[J]. 2017.

[2] Li J, Seltzer M L, Wang X, et al. Large-Scale Domain Adaptation via Teacher-Student Learning[J]. 2017.

[3] Samarakoon L, Mak B, Sim K C. Learning Factorized Transforms for Unsupervised Adaptation of LSTM-RNN Acoustic Models[C]// INTERSPEECH. 2017:744-748.

繼續閱讀