INTERSPEECH 2017系列 | 語音識别之後處理技術1. 語音識别之後處理技術簡介2. 口語順滑技術(Disfluency Detection)3. 标點恢複(Punctuation Restoration)4. 逆文本标準化(Inverse Text Normalization)

編者：今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥爾摩順利召開，衆多的高校研究機構和著名的公司紛紛在本次會議上介紹了各自最新的技術、系統和相關産品，而阿裡巴巴集團作為鑽石贊助商也派出了強大的陣容前往現場。從10月25日開始，阿裡iDST語音團隊和雲栖社群将共同打造一系列語音技術分享會，旨在為大家分享INTERSPEECH2017會議上語音技術各個方面的進展。本期分享的主題是遠場語音識别技術，以下是本次分享的主要内容：

語音識别（Automatic Speech Recognition，ASR）所要解決的問題是讓計算機能夠"聽懂"人類的語音，将語音轉化成文本。語音識别是實作智能的人機互動的前沿陣地，是完全機器翻譯，自然語言了解等的前提條件。語音識别的研究起源于上世紀的50年代，此後經過無數學者堅持不懈的努力，從最初的基于孤立詞的小詞彙量語音識别系統到目前的基于大詞彙量的連續語音識别識别系統，語音識别技術取得了顯著的進展。特别是近年來随着大資料時代的到來，以及深度神經網絡在語音識别中的應用，語音識别系統的性能獲得了顯著的提升。語音識别也逐漸走向實用化和産品化，越來越多的語音識别智能軟體和應用開始走入大家的日常生活，例如語音輸入法，智能語音助手，車載語音互動系統等等。

語音識别之後處理技術，主要是優化語音識别産品的使用者體驗，包括：口語順滑(Disfluency Detection)、标點恢複(Punctuation Restoration)和逆文本标準化(Inverse Text Normalization)等。下圖給出示例：

口語順滑(Disfluency Detection)：紅色框表示口語順滑的效果。與書面語不同，口語含有不通順的成分(disfluencies)，包括填充停頓(filled pause)、重複(repitition)、修正(repair)、重新開始(restart)

标點恢複(Punctuation Restoration)：藍色框表示标點恢複的效果。由于語音識别是做音頻資訊到字元序列的轉換，非常需要标點斷句友善使用者的閱讀，同時便于語音識别後續的應用，譬如機器翻譯、機器閱讀等。

逆文本标準化(Inverse Text Normalization)：橘黃色框表示逆文本标準化效果。可以将spoken form的一些實體，轉換為書面語形式，譬如數字、日期、貨币等，方面使用者閱讀。

INTERSPEECH 2017系列 | 語音識别之後處理技術1. 語音識别之後處理技術簡介2. 口語順滑技術(Disfluency Detection)3. 标點恢複(Punctuation Restoration)4. 逆文本标準化(Inverse Text Normalization)

一個标準口語順滑範式如下圖表示，包括1）被修正部分reparandum 2）插入語interregum 3）修正結果repair

1 Sequence tagging:可定義為标準的序列标注問題，可參看的模型包括： CRFs、Semi-Markov CRFs、LSTM、BLSTM

一個标準的BLSTM模型如下圖

2 Parsing-based models: 基于parsing的方法，其優點是可以結合NLP parser 一起來解決該問題，但是标注資料的規模可能有限。

3 Sequence to sequence models: 基于生成的方式，該研究領域最近非常熱門。

1 N-gram Language Models

2 Sequence tagging: better generalization、longer context

參考文獻：LSTM for Punctuation Restoration in Speech Transcripts

參考文獻：Bidirectional Recurrent Neural Network with Attention Mechanism for Punctuation Restoration

3 Sequence to sequence models

3.1 Compact Representation

3.2 Example

參考文獻：NMT-based Segmentation and Punctuation Insertion for Real-time Spoken Language Translation

1 word、phrase、word embedding

2 word/phoneme duration、energy(Two stage model)

Convert spoken-form token sequence to written form

參考文獻：A Mostly Data-driven Approach to Inverse Text Normalization

1 Label Assignment：

assign a label to each spoken-form input token. A label specifies edits to perform to the spoken-form token string in order to obtain its corresponding written-form segment.

一些label例子：

2 Label Assignment：

Generate finite-state-transducer(FST) for the Rewrite, Prepend, and Append fields from tables, with both input and output symbols

3 Post-processing

apply the appropriate post-processing grammar to any regions marked for post-processing.

4 Label Inference

Obtain label sequences from spoken form, written form pairs

INTERSPEECH 2017系列 | 語音識别之後處理技術1. 語音識别之後處理技術簡介2. 口語順滑技術(Disfluency Detection)3. 标點恢複(Punctuation Restoration)4. 逆文本标準化(Inverse Text Normalization)

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希