Alibaba at Interspeech 2021 | 達摩院語音實驗室9篇入選論文解讀一、語音識别二、語音合成三、後處理技術四、前端信号處理技術

INTERSPEECH是由國際語音通訊協會（International Speech Communication Association, ISCA）創辦的語音信号處理領域頂級旗艦國際會議。曆屆INTERSPEECH會議都備受全球各地語音語言領域人士的廣泛關注。

今年的INTERSPEECH 2021于8月30号～9月3号在捷克布爾諾舉行。本次的會議采用線上視訊會議和線下會議同步進行的方式。

繼去年11篇論文入選INTERSPEECH 2020之後，本次INTERSPEECH 2021阿裡巴巴達摩院語音實驗室再度有9篇論文被接收。本次被接收的論文研究方向包括語音識别，語音合成，後處理技術，前端信号處理技術等研究方向。

下文将對我們入選論文進行解讀。

一、語音識别

1. 極低尺寸的裝置端語音識别系統

Extremely Low Footprint End-to-End ASR System for Smart Device

近年來，端到端語音識别變得流行起來，因為它可以将聲學、發音和語言模型內建到單個神經網絡中，并且優于傳統模型。在端到端方法中，基于注意力的模型，例如，Transformer 已經成為主流方法。端到端模型打開了在智能裝置上部署語音識别系統的大門，但它仍然受到模型參數量大的困擾。本文為智能裝置提出了一種占用空間極低的端上語音識别系統，以實作在不犧牲識别精度的情況下滿足資源受限的目标。我們設計了跨層權重共享結構來提高參數效率，進一步利用包括稀疏化和量化在内的模型壓縮方法，以減少記憶體存儲并提高智能裝置的解碼效率。

我們在公開的 AISHELL-1 和 AISHELL-2 基準測試中評估了本文的方法。在 AISHELL-2 任務上，所提出的方法實作了 10 倍以上的壓縮（模型大小從 248MB 到 24MB），同時性能損失很小（CER 從 6.49% 到 6.92%）。

二、語音合成

1. EMOVIE: 中文國語開源情感語音資料庫

EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model

近幾年來，神經網絡語音合成技術愈發受到人們的關注，也取得了很好的成果。但是，由于缺少高品質情感資料以及先進的語音合成情感模型，如何合成更具表現力的音頻成為了研究人員的一個新的挑戰。在這篇文章中，我們開源了一份中文國語情感語音資料庫——EMOVIE。這個資料庫的音頻來自于7部中文國語電影，考慮到需要盡量低的背景噪聲，電影類型主要是劇情片和喜劇片。基于字幕中的文本和時間戳資訊，我們進行切音、轉錄和篩選，最終獲得了9724句音頻，共約4.18h。在資料标注的時候，我們采用 -1、-0.5、0、0.5、1五個情感極性（emotion polarity）對每個音頻進行人工标注。通過極性分布圖（Fig 1.a）可以看到，極性為-0.5和0.5的音頻占比約79%，而-1和1的音頻占比較小。通過長度分布圖（Fig 1.b），EMOVIE的音頻的平均長度為1.78s，每句音頻平均8.93個字。

進一步地，我們還提出了一種簡單但有效的情感語音合成模型——EMSpeech，它通過輸入的文本資訊來預測情感标簽，進而生成更具表現力的音頻。通過語譜圖和表現力MOS，我們看到，相比于FastSpeech2，EMSpeech能夠生成更具情感的音頻。同時，通過實驗，EMSpeech也有一定的情感控制能力。

三、後處理技術

1. 聯合文本和音素表征學習的口語了解預訓練

Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning

用于口語了解 (SLU) 的傳統級聯架構中，已經觀察到自動語音識别（ASR）錯誤可能會損害自然語言了解的性能。端到端 (E2E) SLU 模型已經提出用單個模型将語音輸入直接映射到所需的語義，進而減輕 ASR 錯誤傳播。最近，針對這些 E2E 模型已經探索了預訓練技術。

本文提出了一種聯合文本和音素預訓練的表征學習方法，可以利用音素資訊來提升口語語言了解任務對于ASR錯誤的魯棒性。我們探索了音素标簽作為一種高層次的語音特征，設計和比較了基于條件掩碼語言模型目标和句間關系目标的預訓練方法。我們也探索了結合文本和音素資訊在模型finetune的有效性。FluentSpeechCommands和SNIPS兩個公開資料集上的實驗結果表明，提出的方法可以顯著提升基線模型效果以及提升口語語言了解任務對于ASR錯誤的魯棒性。

2. 區分式自訓練的标點預測

Discriminative Self-training for Punctuation Prediction

标點預測任務對于提升ASR輸出文本的可讀性和提升下遊自然語言處理任務的效果起到至關重要的作用。然而，要想取得好的标點預測效果，往往需要大量的标注的口國文本，這往往是耗費大量人力物力的。

本文提出了一種區分式self-training方法，即weighted loss和區分式label smoothing的方法，來利用無标注的口國文本資料。在英文公開資料集IWSLT2011和一個内部中文資料集上，實驗表明我們提出的方法可以進一步提升很強的基線模型，包括BERT, RoBERTa和ELECTRA。另外，提出的區分式self-training方法相較經典self-training方法的效果有一定提升。我們在IWSLT2011公開資料集上獲得了新的SOTA，有1.3 F1的絕對提升。

四、前端信号處理技術

1. 聯合聲學特征和空間特征的會議場景混疊語音檢測技術

Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings

多人會議場景，存在一個普遍的現象是多人同時說話造成的混疊語音。這種混疊語音的存在對于後續語音增強，語音識别等任務都造成了很大的挑戰。本研究我們探索如何有效的檢測出多人會議的音頻信号中的混疊語音。不同于過往的隻利用單通道的音頻信号進行混疊語音檢測，我們的研究探索了實際錄制的8通道語音信号利用信号處理提供的聲源空間資訊和音頻聲學資訊來聯合進行模組化進行混疊語音檢測。特别的，我們提出了two-stream DFSMN來有效聯合模組化兩種特征，以及提出了一種基于attention的pooling技術來實作句子級的模組化。我們在真實錄制的會議資料集上進行了實驗驗證，結果顯示聯合音頻和空間資訊的混疊語音檢測相比于基線基于音頻的檢測方法可以獲得明顯的性能提升。

2. 帶定向麥克風的線性陣列的最小範數差分波束成形

Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones

差分麥克風陣列技術（DMA，differential microphone array）或者差分波束成形技術（differential beamforming），由于具有較多的實體特性優勢，尤其适合語音信号處理，近年來成為信号處理領域研究熱點，同時在工業界也被廣泛使用。

我們在差分麥克風陣列理論研究持續耕耘，繼去年收錄環形陣列差分波束論文之後，本次收錄論文進一步線上性陣列上面拓展研究，利用指向性麥克風線上性麥克風陣列上進行差分波束設計，我們将提出的方法稱之為線性差分指向性麥克風陣列（Linear differential directional microphone array (LDDMA)），此方法擴充了線性差分陣列（linear differential microphone array，LDMA）的設計理論，通過理論分析證明，指向性麥克風組成的差分陣列可以在WNG（白噪聲增益）和DI（指向因子）兩個次元都比目前業界常用的全向性麥克風組成的差分陣列取得明顯優勢。同時也探索了指向性麥克風的陷零點和差分波束陷零點的數學關系。

3. 基于神經網絡掩碼和注意力模型的實時多通道語音增強

Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model

近年來，雖然語音增強方法的性能得到了很大的提升，但是在遠場和複雜的會議室環境中，基于麥克風陣列的語音增強方法仍然有一系列開放的問題需要進一步解決。

本文提出了一種實時的多通道語音增強方法，它由所設計的帶注意力機制的複數值掩碼估計網絡和差分波束形成兩個部分組成。

具體來說，在訓練階段，複數值掩碼估計網絡從多通道資料中估計出單通道目标掩碼。在測試階段，為了進一步抑制噪聲，我們首先利用差分波束形成技術來抑制來自非目标方向的幹擾信号，進而獲得相對幹淨的頻譜。然後将估計的掩碼作用于差分波束成形所輸出的頻譜，作為最終的輸出結果。

實驗結果表明，本文所提出的方法在PESQ和MOS等名額上取得了優于現有技術的性能。

4. 在混響環境中使用定向麥克風陣列進行 DOA 估計的 Cramer-Rao 下限

Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments

目前主流的DOA估計方法主要使用全向麥克風陣列拾取信号，利用麥克風間的相位資訊進行DOA估計。本文針對混響環境下DOA估計誤差大的問題，使用指向性麥克風陣列代替全向麥克風陣列，結合使用振幅和相位資訊，增加DOA方法的魯棒性，并利用克拉美羅下界（CRLB）進行理論分析。

本文通過模組化混響信号為isotropic noise，建立混響的互功率譜密度矩陣，進而計算出對應的費雪資訊矩陣，得到DOA估計的CRLB。通過理論分析，即對比CRLB發現對于線性陣列，基于指向性麥克風的誤差下界低于基于全向麥克風的誤差下界。同時利用SRP、MVDR和MUSIC三種DOA方法通過實驗對比表明，基于指向性麥克風的RMSE低于基于全向麥克風的RMSE。

5. 基于盲源分離的回聲消除、去混響、聲源分離統一架構

Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation

回聲消除、去混響、聲源分離是語音增強系統中的三個主要問題。傳統系統通常采用的是級聯架構，三個子任務分别由三個獨立的子產品完成，三個子產品有各自的理論背景、目标函數和優化方法。級聯架構的系統雖然具有靈活性，但是各自子產品的任務疊代到最優，并不等于全局結果達到最優。本文将回聲消除、去混響、聲源分離這三個子任務都統一到了盲源分離的信号模型架構下，并使用auxiliary-function based in-dependent component/vector analysis (Aux-ICA/IVA)的方法進行求解。本文中的方法具有統一的信号模型、目标函數、疊代方法，實驗證明這種統一架構有望比獨立子產品的系統具有更好的語音增強性能。

達摩院語音實驗室論文下載下傳連結：

1.極低尺寸的裝置端語音識别系統

Extremely Low Footprint End-to-End ASR System for Smart Device

論文連結：

https://arxiv.org/abs/2104.05784

論文來源：阿裡巴巴達摩院語音實驗室獨立完成

2. EMOVIE: 中文國語開源情感語音資料庫

https://arxiv.org/pdf/2106.09317.pdf

論文來源：阿裡巴巴達摩院語音實驗室與浙江大學合作完成

3. 聯合文本和音素表征學習的口語了解預訓練

https://arxiv.org/pdf/2104.10357.pdf

論文來源：阿裡巴巴達摩院語音實驗室獨立完成

4. 區分式自訓練的标點預測

https://arxiv.org/pdf/2104.10339.pdf

5. 聯合聲學特征和空間特征的會議場景混疊語音檢測技術

https://www.isca-speech.org/archive/pdfs/interspeech_2021/zhang21w_interspeech.pdf

6. 帶定向麥克風的線性陣列的最小範數差分波束成形

https://www.isca-speech.org/archive/pdfs/interspeech_2021/huang21_interspeech.pdf

7. 基于神經網絡掩碼和注意力模型的實時多通道語音增強

https://www.isca-speech.org/archive/pdfs/interspeech_2021/xue21_interspeech.pdf

論文來源：阿裡巴巴達摩院語音實驗室與湖南大學合作完成

8. 在混響環境中使用定向麥克風陣列進行 DOA 估計的 Cramer-Rao 下限

https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21h_interspeech.pdf

9. 基于盲源分離的回聲消除、去混響、聲源分離統一架構

開源代碼位址：

https://github.com/nay0648/unified2021

Alibaba at Interspeech 2021 | 達摩院語音實驗室9篇入選論文解讀一、語音識别二、語音合成三、後處理技術四、前端信号處理技術

一、語音識别

1. 極低尺寸的裝置端語音識别系統

二、語音合成

1. EMOVIE: 中文國語開源情感語音資料庫

三、後處理技術

1. 聯合文本和音素表征學習的口語了解預訓練

2. 區分式自訓練的标點預測

四、前端信号處理技術

1. 聯合聲學特征和空間特征的會議場景混疊語音檢測技術

2. 帶定向麥克風的線性陣列的最小範數差分波束成形

3. 基于神經網絡掩碼和注意力模型的實時多通道語音增強

4. 在混響環境中使用定向麥克風陣列進行 DOA 估計的 Cramer-Rao 下限

5. 基于盲源分離的回聲消除、去混響、聲源分離統一架構

繼續閱讀

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

Alibaba at Interspeech 2021 | 達摩院語音實驗室9篇入選論文解讀一、 語音識别二、 語音合成三、 後處理技術四、 前端信号處理技術

一、 語音識别

1. 極低尺寸的裝置端語音識别系統

二、 語音合成

1. EMOVIE: 中文國語開源情感語音資料庫

三、 後處理技術

1. 聯合文本和音素表征學習的口語了解預訓練

2. 區分式自訓練的标點預測

四、 前端信号處理技術

1. 聯合聲學特征和空間特征的會議場景混疊語音檢測技術

2. 帶定向麥克風的線性陣列的最小範數差分波束成形

3. 基于神經網絡掩碼和注意力模型的實時多通道語音增強

4. 在混響環境中使用定向麥克風陣列進行 DOA 估計的 Cramer-Rao 下限

5. 基于盲源分離的回聲消除、去混響、聲源分離統一架構

繼續閱讀

Alibaba at Interspeech 2021 | 達摩院語音實驗室9篇入選論文解讀一、語音識别二、語音合成三、後處理技術四、前端信号處理技術

一、語音識别

二、語音合成

三、後處理技術

四、前端信号處理技術