編者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥爾摩順利召開,衆多的高校研究機構和著名的公司紛紛在本次會議上介紹了各自最新的技術、系統和相關産品,而阿裡巴巴集團作為鑽石贊助商也派出了強大的陣容前往現場。從10月25日開始,阿裡iDST語音團隊和雲栖社群将共同打造一系列語音技術分享會,旨在為大家分享INTERSPEECH2017會議上語音技術各個方面的進展。本期分享的主題是遠場語音識别技術,以下是本次分享的主要内容:
語音識别(Automatic Speech Recognition,ASR)所要解決的問題是讓計算機能夠"聽懂"人類的語音,将語音轉化成文本。語音識别是實作智能的人機互動的前沿陣地,是完全機器翻譯,自然語言了解等的前提條件。語音識别的研究起源于上世紀的50年代,此後經過無數學者堅持不懈的努力,從最初的基于孤立詞的小詞彙量語音識别系統到目前的基于大詞彙量的連續語音識别識别系統,語音識别技術取得了顯著的進展。特别是近年來随着大資料時代的到來,以及深度神經網絡在語音識别中的應用,語音識别系統的性能獲得了顯著的提升。語音識别也逐漸走向實用化和産品化,越來越多的語音識别智能軟體和應用開始走入大家的日常生活,例如語音輸入法,智能語音助手,車載語音互動系統等等。
語音識别之後處理技術,主要是優化語音識别産品的使用者體驗,包括:口語順滑(Disfluency Detection)、标點恢複(Punctuation Restoration)和逆文本标準化(Inverse Text Normalization)等。下圖給出示例:
口語順滑(Disfluency Detection):紅色框表示口語順滑的效果。與書面語不同,口語含有不通順的成分(disfluencies),包括填充停頓(filled pause)、重複(repitition)、修正(repair)、重新開始(restart)
标點恢複(Punctuation Restoration):藍色框表示标點恢複的效果。由于語音識别是做音頻資訊到字元序列的轉換,非常需要标點斷句友善使用者的閱讀,同時便于語音識别後續的應用,譬如機器翻譯、機器閱讀等。
逆文本标準化(Inverse Text Normalization):橘黃色框表示逆文本标準化效果。可以将spoken form的一些實體,轉換為書面語形式,譬如數字、日期、貨币等,方面使用者閱讀。
一個标準口語順滑範式如下圖表示,包括1)被修正部分reparandum 2)插入語interregum 3)修正結果repair
1 Sequence tagging:可定義為标準的序列标注問題,可參看的模型包括: CRFs、Semi-Markov CRFs、LSTM、BLSTM
一個标準的BLSTM模型如下圖
2 Parsing-based models: 基于parsing的方法,其優點是可以結合NLP parser 一起來解決該問題,但是标注資料的規模可能有限。
3 Sequence to sequence models: 基于生成的方式,該研究領域最近非常熱門。
1 N-gram Language Models
2 Sequence tagging: better generalization、longer context
參考文獻:LSTM for Punctuation Restoration in Speech Transcripts
參考文獻:Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration
3 Sequence to sequence models
3.1 Compact Representation
3.2 Example
參考文獻:NMT-based Segmentation and Punctuation Insertion for Real-time Spoken Language Translation
1 word、phrase、word embedding
2 word/phoneme duration、energy(Two stage model)
Convert spoken-form token sequence to written form
參考文獻:A Mostly Data-driven Approach to Inverse Text Normalization
1 Label Assignment:
assign a label to each spoken-form input token. A label specifies edits to perform to the spoken-form token string in order to obtain its corresponding written-form segment.
一些label例子:
2 Label Assignment:
Generate finite-state-transducer(FST) for the Rewrite, Prepend, and Append fields from tables, with both input and output symbols
3 Post-processing
apply the appropriate post-processing grammar to any regions marked for post-processing.
4 Label Inference
Obtain label sequences from spoken form, written form pairs