語音識别（ASR）基礎介紹第四篇——當今流行做法與CTC

本篇開始，就進入到了asr目前的流行做法。這裡單獨提到了CTC算法。這個算法對目前asr使用deep learning的方法有重大影響。

總體感覺，寫到本篇，工作量反而變得很小。因為進入deep learning時代後，神經網絡模型基本都是那麼幾種，已經不再需要挨個詳細介紹。而且看圖就能了解的很明白。是以本篇後半部分基本就是貼圖了。。:D

一、CTC

在CTC之前，訓練語料要配合上一篇中提到的方法，需要人工把音頻中每個時間段對應的是哪個音素的資訊标注清楚。這個工作量和對人及金錢的需求是巨大的。基本都是百萬級别手筆。有個CTC之後，給定一個音頻，就隻要告訴這個音頻說的是什麼文本就好了。省掉了對齊的那一步。由此，其重要性可自行判斷。

關于CTC，感覺與其這裡坑坑窪窪的介紹，不如直接參考這篇知乎的文章——

https://zhuanlan.zhihu.com/p/36488476

，一看就懂。

這裡就大概說明下CTC的大緻原理，詳情還是需要直接看下知乎的那篇文章。

CTC 大緻原理

半定義性質的講：CTC 要解決的問題是，算法輸入序列的長度遠大于輸出序列長度的問題。語音識别問題的輸入長度是遠大于輸出長度的，這是因為語音信号的非平穩性決定的，就比如說 “nihao”，如果按時間片切分，就變成了"nnnnn iiiiii hhh aaa oo" ，但不論怎麼表達，這句話最後的标簽都是 “nihao”

CTC 為解決這個問題，做了兩個操作：

其一是引入了blank 标簽。還記得wav音頻的格式嗎？這裡面聲音有高峰也有趨近于0的時候。 CTC中認為，高峰（spike）段的聲音對應着音素的label，而歸0的部分對應的label則是blank。這個看起來好像沒什麼。

CTC引入的第二個操作是：

asr 的過程還是一幀MFCC39維向量進去，然後出一個label。假設，“你好” 這個音頻共有200個MFCC 特征幀。這200個特征幀對應着200個輸出結果，就結果空間而言，共有音素數目^200 種可能。而我們關心的，或者說模型訓練時已知的，就是這所有這音素數目^200 種可能中，可以達成 “n i h a o” 這5種結果的數目。

這裡就定義了一種非常簡單粗暴的映射方法——鄰近去重，比如，如果輸出的200個結果是 {nnnniiiiii...hhhhhaaaaaooo} 那麼就鄰近去重變成->{n i h a o }，然後這個結果組合就是有效結果中的一種了。而{wwwwooooocccccaaaooo} 會映射成{w o c a o} ,自然就無效的結果。

CTC認為，計算目标函數的時候，上例中的200個MFCC特征，得到的200個模型的結果，每個小結果都對應着所有音素上的一個機率分布。然後計算所有能映射成 {n i h a o} 的結果的音素路徑的機率值，讓這個值越大越好就行了。

但是這樣一來，計算量就非常的大，指數級的計算量。 CTC就使用了類似HMM推到的方法。發現求偏導進行反向傳導的時候，每一幀MFCC對應的結果的導數，都可以利用前一時刻的兩個狀态的結果直接求到。即類似這樣：

這樣一來，整體計算量就急劇萎縮成了 7*T*音素個數。

使用CTC的一個展示：

二、流行的模型

2012年，微軟鄧力和俞棟将前饋神經網絡FFDNN（Feed Forward Deep Neural Network）引入到聲學模型模組化中，将FFDNN的輸出層機率用于替換之前GMM-HMM中使用GMM計算的輸出機率。從這裡開始， DNN-HMM混合系統的風潮起來了。

目前流行的方式大概以下幾類（主要還是集中在語音模型領域，而且是直接端到端的）：

1-2年前最流行的架構：

從下圖模型可以看到，此時HMM仍然是主要的模型，隻是把之前GMM的部分換成了DNN了。

然後，自然不能少了RNN系列的解決方案：

RNN解決方案

可以看到，最上層仍然是HMM，大緻原理，基本可以直接從圖中看出來。

主流模型

緊接着，HMM模型也給去掉了，進入了主流語音模型時代。

以下是幾款流行的主要模型（以訊飛的模型居多），這個時候，已經可以直接從圖上看出原理了。

此前，百度語音每年的模型算法都在不斷更新，從 DNN ，到區分度模型，到 CTC 模型，再到如今的 Deep CNN 。基于 LSTM-CTC的聲學模型也于 2015 年底已經在所有語音相關産品中得到了上線。比較重點的進展如下：1)2013 年，基于美爾子帶的 CNN 模型;2)2014年，Sequence Discriminative Training(區分度模型);3)2015 年初，基于 LSTM-HMM的語音識别 ;4)2015 年底，基于 LSTM-CTC的端對端語音識别;5)2016 年，Deep CNN 模型，目前百度正在基于Deep CNN 開發deep speech3，據說訓練采用大資料，調參時有上萬小時，做産品時甚至有 10 萬小時。

三、其它相關技術

由于當今流行的模型大部分都是基于deep neural network的，網絡的形态基本在 CNN RNN 以及全連接配接上更換。這些大都很通用。是以這裡沒有再細講原理，而是直接貼圖展示。具體哪種方案更好，恐怕要真實的投入并嘗試才能得知了。目前訓練所需要的機器代價也是比較高的。開源的語音資料網上倒是不難搜到。如果是真感興趣的同學，可以考慮租用雲伺服器的形式來自己做下測試。

語音識别（ASR）基礎介紹第四篇——當今流行做法與CTC

繼續閱讀

INTERSPEECH 2017系列 | 語音識别技術之自适應技術

INTERSPEECH 2017系列 | 語音識别之語言模型技術

INTERSPEECH 2017系列 | 遠場語音識别技術1. 遠場語音識别技術簡介2. INTERSPEECH 2017 遠場語音識别論文介紹3.總結及技術展望

INTERSPEECH 2017系列 | 語音識别技術之聲學模型1.語音識别技術簡介2.INTERSPEECH 2017 論文介紹參考文獻：

INTERSPEECH 2017系列 | 語音識别之後處理技術1. 語音識别之後處理技術簡介2. 口語順滑技術(Disfluency Detection)3. 标點恢複(Punctuation Restoration)4. 逆文本标準化(Inverse Text Normalization)

INTERSPEECH 2017系列 |語音識别技術之關鍵詞檢索1. 語音關鍵詞檢索介紹2. INTERSPEECH 2017關鍵詞檢索論文介紹

【原創】建構高性能ASP.NET站點第六章—性能瓶頸診斷與初步調優（上篇）—識别性能瓶頸

靈雲語音識别源碼線上語音識别離線語音識别線上語音識别 + 語義了解

盤它！10篇+阿裡雲技術經典案例，看完必收藏（下）

語音識别（ASR）基礎介紹第三篇——經典做法及術語概念

語音識别（ASR）基礎介紹第二篇——萬金油特征MFCC

友傑智新教你如何21天打造離線上語音模組

本地語音識别IC應用中的主要問題

快速錄入大段文本的正确姿勢

頂級語音專家、MSR首席研究員俞棟：語音識别的四大前沿研究

解密：依圖如何一年實作語音識别名額超巨頭玩家