天天看點

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

原創 淘系音視訊技術 淘系技術  2020-12-31

在網際網路技術普及的時代中,淘寶是連接配接大衆購買力與社會生産力的一座橋梁。随着商品多媒體展示能力的逐漸發展,消費者線上上能夠越來越真實地了解、評估感興趣的商品,越來越自信地購買。近年來,視訊形式的互動直播愈加成熟,其對商品展示的全面與真實性,與主播對商品問題實時解答的便捷性,使得消費者越來越多地選擇通過觀看賣家的直播來了解、選購商品,而商家也愈加重視起直播賣貨對真實購物場景的還原能力。這使得購物平台的直播服務,成為了線上大衆消費的重要依托。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:
網際網路直播産品中,各類室内外嘈雜環境中的直播裡,音頻經常混雜各類的噪聲,影響使用者的聽感,幹擾多媒體品質。如何利用技術手段,使使用者獲得“視”為所見、“聲”臨其境的視聽感受,成為了一個重要的任務。在各類方法中,傳統音頻降噪算法速度較快,計算消耗較低,能在多種多樣的低端裝置上運作,但面對複雜且多變的突發噪聲、各類語言方言的多樣人聲,傳統方法的效果也展現出了可見的短闆。
淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

基于學習的、資料驅動的算法,通過對大量資料的學習,在真實的噪聲環境中展現出了較為突出的優勢,取得了較好的效果。但是這類“基于學習的”方法,由于參數多、模型大,較為複雜,是以可解釋性欠佳,穩定性不易受控,泛化能力不易保障,缺陷不易排查。這些問題的存在,導緻基于學習的方法常被稱為“無法觀察”且“不易調整”的“黑箱”。同時,基于學習的算法雖聽感效果出衆,但相比傳統算法,複雜度偏高,運算速度較低、電量消耗較多,更容易導緻硬體發熱、系統降頻、程式卡頓等問題。

為将最好的音頻體驗帶給使用者,淘系音視訊技術團隊在反複的研發、試錯、創新中,針對降噪的效果、品質、算法的速度、能耗、延遲與泛化的穩定性等諸多方面,應用了一系列技術,對模型結構、架構、限制等進行了研發改進,以提升并完善淘寶直播整體的音視訊體驗。

本文接下來的組織結構如下:首先對音頻降噪所用到的語音增強技術做了簡單介紹,然後依次對基于傳統信号處理的語音增強方案和基于深度學習的語音增強方案進行了詳細介紹,最後對針對淘寶直播場景自研的Alidenoise算法的關鍵技術進行了細緻闡述,文末附有參考文獻清單。

語音增強任務概述

▐  語音增強的定義

語音增強是指幹淨語音在現實生活場景中受到來自各種噪聲幹擾時,需要通過一定的方法将噪聲濾除,以提升該段語音的品質和可懂度的技術。從一圖中可以直覺的帶噪後語音的增強後圖和帶噪語音的頻譜圖的對比中了解語音增強的過程,左側為增強後語音的頻譜圖,右側為帶噪語音的頻譜圖 [1]。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

▐  語音增強的分類

從通道數角度進行劃分

按照錄音的通道數來劃分,語音增強又分為單通道語音增強和麥克風陣列語音增強。單通道語音增強隻利用了時域和頻域的資訊,而麥克風陣列語音增強不僅利用了時域和頻域的資訊,還利用了空域的資訊。是以單通道語音增強的任務更為困難,但是卻對硬體成本要求相對低。另外,麥克風陣列語音增強方法對每個麥克風的實體特性的一緻性要求較為苟刻,且對聲源的時變空間位置要求較高,即不允許聲源的大幅度快速移動。

人耳聽覺系統是一個雙麥克風結構,人耳能根據不同聲源到達左右耳朵的時延差和聲強差來感覺不同聲源的空間位置分布,進而輔助對不同聲源的聲源分離任務。但是,人耳聽覺系統即使在聽已經錄過音的單通道帶噪語音,也能容易地區分該單通道帶噪語音中的不同音源;或者當不同聲源處在相同位置的時候,人耳也能成功地區分并了解不同的音源。是以,時域和頻域資訊在音源分離中起主導作用,而空域資訊隻是起到輔助作用 [2]。

在淘寶直播的業務場景中,主播多以pc、手機等裝置開播,是典型的單通道語音增強場景,Alidenoise目前也主要提供單通道的語音增強能力。

按照增強方法進行劃分

按照語音增強的方法來分,可以分為無監督語音增強方法和有監督語音增強方法,前者也稱為傳統語音增強方法,傳統語音增強算法雖然不需要離線訓練,所需的計算資源也少,但是由于很多不合理的假設的存在,限制了其性能上限。有監督語音增強方法在近些年出現,利用既有的語音資料或噪聲資料,訓練相關的統計特性模型,類似于人類學習的方式,先讓系統學習并記住一些語音和噪聲的模式,以此來将噪聲從帶噪語音中分離出來。由于有監督語音增強方法充分利用了既有的資料,預先掌握了一些語音和噪聲的統計特性,因而會得到更優的增強性能。但是在有監督的語音增強方法中,需要重點對其泛化能力進行研究。

基于傳統信号處理的單通道語音增強方案

傳統單通道語音增強算法主要分為時域方法和頻域方法。

▐  時域方法

參數和濾波的方法

這類方法 [3][4] 主要是利用濾波器估計發音器官的聲道參數和激勵源的激勵參數,但是通常情況下,激勵參數是難以估計的,特别是輔音信号的激勵實際上是類似于白噪聲的随機信号。而在信噪比相對比較低的時候,聲道參數和激勵參數都難以估計。

信号子空間法

信号子空間法 [5][6] 是基于語音信号具有稀疏特性,把帶噪語音信号分解為語音子空間加噪聲子空間,進而把噪聲子空間的噪聲去除,保留語音信号的一種方法。

▐  頻域方法

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

由于頻域語音增強方法是目前常用的增強方法,我們先重點介紹下頻域經典算法的基本思想。在頻域單通道語音增強算法中,最核心的是如何求取增益函數。上圖給出了傳統單通道語音增強系統的算法流程圖。首先通過短時傅裡葉變換将帶噪語音由時域信号變換為頻域信号,然後計算其功率譜,再進行噪聲方差的估計。噪聲方差的估計方法一般是先根據語音檢測子產品來确定目前幀是語音幀還是噪聲幀,如果是噪聲幀即更新噪聲的方差,反之, 則不更新噪聲的方差。接下來需要對增益函數進行估計,增益函數的估計有多種方法,目前比較優的方法是先估計語音的存在機率、先驗信噪比和後驗信噪比,然後把估計的增益函數乘以帶噪語音的頻域形式即可得到幹淨語音的頻域估計形式,最後經過逆傅裡葉變換得到幹淨語音的時域估計形式,即得到了可測聽的波形語音。下面将對一些經典的頻域語音增強算法進行介紹。

譜減法

譜減法的核心思想即是在非語音幀的地方疊代更新噪聲的方差,然後将噪聲的方差從帶噪語音信号的能量中減掉進而得到對幹淨語音信号的估計。譜減法原理簡單,但是若噪聲方差過估計,就會産生語音失真;而若噪聲方差欠估計則會産生音樂噪聲。

維納濾波法

維納濾波法也是一種經典方法,它分時域和頻域濾波兩種形式。通過解維納-霍夫 (Wiener-Hopf) 方程,可獲得對濾波系統函數系數的最優估計。和譜減法相比,維納濾波法增強後的語音幾乎沒有“音樂噪聲”,而是殘留類似高斯白噪聲的殘留噪聲,讓人聽上去更舒服些。但是維納濾波法明顯對語音的破壞更為嚴重,而且維納濾波法是平穩條件下的假設模型,其非平穩噪聲抑制能力較弱。

基于最小均方誤差的語音幅度譜估計方法

傳統語音增強算法中具有革命性意義的方法是1984年 Ephraim 和 Malah 提出的基于最小均方誤差的語音幅度譜估計算法 [7],随後考慮到人耳對聲強的感覺是非線性的,因而對數譜域的最小均方誤差估計在 [8] 中被提出,至此傳統單通道語音增強算法發展漸進成熟,與此同時, Rainer Martin 在1994年提出了基于最小統計量的語音增強方法 [9],2001年他對該方法的噪聲估計方法的原理做出了相應的改良,進而提出了更平滑的最小統計量的噪聲的估計方法 [10]。而目前該類方法中,用的最普遍的是 Israel Cohen 提出的最小控制的疊代平均的 (Minima Controlled Recursive Averaging, MCRA) 噪聲估計方法 [11],随後他又提出了改進的最小控制的疊代平均的噪聲估計方法 [12]。最小控制的疊代平均的噪聲估計方法相比之前的噪聲估計方法而言,具有估計誤差更小且對非平穩噪聲跟蹤更快的特點,可認為該方法是目前為止傳統單通道語音增強算法中最優的方法。

▐  傳統單通道語音增強方法的綜合評價

優點

傳統單通道語音增強方法具有計算量小,可實時線上語音增強的優點。因為它們的噪聲是根據目前句中目前幀之前的資料進行疊代更新的,是以可以實作快速語音增強的目的。其次在 Cohen 提出的改進的基于最小均方誤差準則的對數功率譜估計方法中 [11][12][13],通過引入語音存在機率,不僅在語音幀對幹淨語音進行估計,還在非語音幀也對幹淨語音進行估計,最大程度上避免了語音的失真,使得整體的增強後語音有較好的聽感。

缺點

  1. 首先是各個傳統單通道語音增強方法在不同程度上均存在“音樂噪聲” [14],而音樂噪聲對人耳的聽感影響很大。“音樂噪聲”的問題在譜減法中最嚴重,而基于最小均方誤差 (Minimum Mean Squared Error, MMSE) 準則 [15] 的維納濾波法和幅度譜或對數功率譜估計都可以将殘留噪聲中的“音樂噪聲”變換成聽感上更平滑的高斯随機噪聲。但是即使是這樣,殘留噪聲在維納濾波法、幅度譜或對數功率譜估計中都依然存在,且在信噪比 (Signal-to-Noise Ratio, SNR) 比較低的時候更為明顯。
  2. 其次是語音損傷,這個以維納濾波法最為嚴重,而基于最小均方誤差準則的對數功率譜估計雖然在很大程度上避免了語音的失真,但是當噪聲的能量大于語音的能量時,該類方法基本上無法挽救語音的失真問題,尤其對能量天然較低的輔音來說,這種現象更為明顯。
  3. 無法對非平穩噪聲,特别是極端非平穩噪聲形成有效抑制。這是因為在傳統的單通道語音增強算法中,噪聲是通過目前句子目前幀的鄰近資訊進行線上估計的,而且隻在非語音幀的地方才對噪聲的方差進行更新,是以無法對突發性較強的非平穩噪聲進行有效跟蹤,因而也無法将其從帶噪語音信号中去除。
  4. 最後,在傳統單通道語音增強算法中,存在很多假設,比如對帶噪語音信号、幹淨語音和噪聲信号都進行了服從高斯分布的假設;還對噪聲和幹淨語音間的互相作用關系進行了獨立性假設,甚至為了推導的友善,對相鄰幀或相鄰頻率次元進行了不相關假設,這些不太合理的假設最終都影響了該類方法的性能上限。

基于深度學習的單通道語音增強方案

在過去幾年中,深度學習方法顯著提升了許多監督學習任務的性能,如圖像分類 [16],手寫識别 [17],自動語音識别 [18],語言模組化 [19] 和機器翻譯 [20] 等,在語音增強任務中,也出現了很多深度學習類的方法。這些方法大緻可以分為兩類,基于掩碼 (mask_based) 的方法和基于映射 (mapping_based) 的方法。

在過去幾年中,深度學習方法顯著提升了許多監督學習任務的性能,如圖像分類[16],手寫識别[17],自動語音識别[18],語言模組化[19]和機器翻譯[20]等,在語音增強任務中,也出現了很多深度學習類的方法。這些方法大緻可以分為兩類,基于掩碼(mask_based)的方法和基于映射(mapping_based)的方法。

▐  Mask_based Methods

Mask_based 的方法,核心思想是通過離線訓練 DNN 來預測時頻(T-F)mask,并通過将預測的 mask 應用于輸入帶噪語音的頻譜來重構純淨語音信号。比較常用的 mask 包括 IRM [21],PSM [22] 和 cIRM [23]。下圖展示了常見 mask 的表現形式 [24]。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

▐  Mapping_based Methods

Mapping_based 的方法利用 DNN 來實作從帶噪語音頻譜的頻譜特征到幹淨語音的頻譜特征的映射,比較廣泛使用的頻譜特征包括幅度頻譜、對數功率頻譜等。下圖展示了一種經典的 mapping_based 方法的訓練和測試流程 [1]。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

結合信号處理算法和深度學習類方法的Alidenoise語音增強算法

▐  Alidenoise算法核心思想

綜合考慮淘寶直播的實時應用場景及傳統增強算法和深度學習類增強算法的優缺點,我們設計了一種混合類架構的單通道語音增強算法,巧妙的對 DNN 可有效處理非平穩類噪聲的優良特性和傳統算法複雜度低的特點進行了融合,算法的核心思想為利用神經網絡學習帶噪語音中噪聲能量和目标人聲能量的比值,進而利用傳統信号進行中的增益估計器如最小均方誤差短時頻譜幅度 (MMSE-STSA) 估計器,求得頻域上的去噪增益,最後經逆變換得到增強後的時域語音信号,整體處理流程如下圖所示。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

▐  Alidenoise核心優勢

  1. 傳統信号處理方法與深度學習類方法相結合,兼具可處理非平穩類噪聲和算法複雜度低的特點
  2. 在神經網絡的設計上,結合訓練目标,以人聲的語譜紋路作為主要學習對象,噪聲泛化性強
  3. 采用Cache buffer技術,實作流式處理
  4. 極輕量小模型, 支援移動端實時增強
  5. 降噪延時可調

▐  Alidenoise關鍵技術一:時頻聯合域感覺技術

算法細節

在基于深度學習方法的語音增強算法中,時序的上下文資訊能夠有效提升模型的泛化性能 [25]。多層感覺器(MLP)模型通常利用連續幀的上下文視窗來捕獲上下文資訊 [26]。但是,上下文視窗這種資訊擷取形式無法為MLP 模型提供長期的上下文資訊。為了解決這個問題,[25] 中提出了利用帶有四層LSTM結構的遞歸神經網絡(RNN)來捕獲長期依賴資訊。相比MLP模型, LSTM模型表現出了顯著的優越性,但是高延遲和高訓練複雜性也限制了它的适用性。而 [27] 中提出的TCN模型,則利用殘差學習融合空洞多尺度卷積,在近些年中被廣泛使用。但在淘寶直播場景中,對人聲部分的高音質有着嚴格的要求,現有的深度學習類增強方案多以頻域或時域的特征學習為主,均未考慮語音幀内不同頻帶的分布差異及時間幀次元語音特性分布的差異,導緻增強後的語音部分音質受損,無法大規模應用于線上。基于此,我們在 Alidenoise 算法中引入了時頻聯合域感覺技術,可在幾乎不引入額外計算複雜度的同時提升深度學習類語音增強算法的降噪性能,可友善的與常用的CNN、RNN等網絡結構結合,獲得更為完整的增強後語譜結構,實際評測結果顯示,主觀聽感體驗更佳。下圖展示了頻域的自适應感覺(注意力)機制流程。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

算法效果

在Taolive Audio Test Datasets上的客觀名額評測結果如下表所示,可以看出,所提的TFANet在不同信噪比條件及不同學習目标下均可以明顯提升增強後語音的品質和可懂度,綜合結論為 PESQ 提升10.3%,STOI 提升4.2%。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

▐  Alidenoise關鍵技術二:分支-轉換-聚合的特征提取方式

強大的表征能力是神經網絡優異的特性之一,在語音增強這個具體任務上,為了使神經網絡在語音信号的關鍵特征提取方面發揮出更大的優勢,我們在 Alidenoise 的算法設計中采用了分支-轉換-聚合的提取方式,将輸入分支分解為 N 個低維表示,然後在每個分支網絡中使用尺寸較小的一維因果空洞卷積來進行上下文資訊的捕獲,最終把各個分支提取到的特征表示進行聚合,這一過程中也引入了注意力機制對不同支路的表征做自适應權重調整,使得可以在較低計算複雜度下獲得強大的表征能力,下圖給出了算法實作的示意圖。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

這裡仍然選用 PESQ 和 STOI 作為評估語音增強後效果的客觀名額,在不同信噪比條件下的結果如下表所示,可以看到,在參數量大幅減少的情況下,所提機制仍可以獲得最高的客觀名額。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:
淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

▐  Alidenoise關鍵技術三:輕量化與效能保障

對于運作在移動端上的算法而言,其CPU占用、電量消耗、記憶體占用與存儲占用都會對軟體系統的可用性産生明顯的影響。一般地,模型的性能消耗與其輸出效果,綜合來看是一種拮抗取舍的關系。然而,在降噪場景下,算法既需要長時間運作,又需要保證算法效果,這對現有成熟的技術提出了一定的挑戰。下文将挑選介紹一些輕量化過程中使用的方案技術,主要包括模型的輕量化裁剪和運算簡化與算耗優化方面的内容。經過對模型量級與效果的反複調優,最終取得了滿意的效果。

輕量化技術概覽

輕量化技術,是指對算法的參數量及模型尺寸、運算量、能耗、速度等“運作成本”進行優化的一系列技術手段。其目的一般是便于智能算法在端上的運作。同時,輕量化技術在計算密集型的雲端服務上也有廣泛的用途,可以幫助降低服務成本、提升相應速度。

輕量化技術的主要難點在于,在優化運作成本同時,算法的效果與泛化性、穩定性不應受到明顯的影響。這對于常見的“黑箱式”神經網絡模型來說,在各方面都具有一定的難度。

此外,輕量化的一部分難點也展現在優化目标的差異性上。比如模型尺寸的降低,并不一定會使得運算量降低;模型運算量的降低,也未必能提高運作速度;運作速度的提升也不一定會降低能耗。這種差異性使得輕量化難以“一攬子”地解決所有性能問題,而需要從多種角度、利用多種技術配合,才能達成運作成本的綜合降低。

目前學術界與工業界常見的輕量化技術包括:參數/運算量子化、剪枝、小型子產品、結構超參優化、蒸餾、低秩、共享等。一個大緻的輕量化技術棧可如下圖所示。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

其中的各類技術都對應不同的目的與需求,比如參數量子化可以壓縮模型占用的存儲空間,但運算時依然恢複成浮點數;參數+運算全局量子化可以同時降低參數體積,減少晶片運算量,但需要晶片有相應的運算器支援,才能發揮提速效果;知識蒸餾利用小型的學生網絡,學習大型模型的高層特征,來獲得性能比對的輕量模型,但優化存在一些難度且主要适合簡化表達的任務(比如分類);非結構化的精細剪裁可以将最多的備援參數剔除,達成優良的精簡,但需要專用硬體支援才可以減少運算量;權重共享可顯著降低模型尺寸,缺點是難以加速或節能;automl/結構超參搜尋能自動确定小型測試結果最優的模型堆疊結構,但搜尋空間複雜度與疊代估計的優良度限制了其應用面。團隊結合淘寶直播場景軟硬體平台特性、穩定性、泛化性、速度與能耗需求的多方面特點,在大量的嘗試後使用了對應的技術,達成了符合體驗要求的輕量級别。

模型的輕量化剪裁

一般而言,模型剪裁與壓縮包括結構化與非結構化兩種,我們基于對實際運算效率的需求,主要選擇了結構化裁剪路線,根據近期研究成果中對模型結構重要性/參數重要性的均衡,對降噪模型進行了調整剪裁。

一、AutoML與結構超參優化

在計算負擔允許的前提下,利用超參搜尋方式确定較優的模型尺寸,是一種較為有效且實用的方法。具體的優化算法多種多樣,從最簡單的網格搜尋、連續二分法到 HyperBand、貝葉斯+HyperBand、PBT,都可以對模型初始剪裁的效果提供資訊。我們的算法中對子子產品、層數、參數量級、學習率、批大小等多種因素都進行了優化搜尋,綜合來看的确存在一個較為合适的效果-尺寸拐點坡峰,如下所示。整體複雜度指數為5時,取得了最經濟的的效果名額。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

二、結構化剪裁

結構化剪裁一般指,以卷積核,或整層的粒度,對模型結構進行削減。上述超參優化已經确立了一個較為經濟的層+子產品堆疊複雜度,接下來進行的結構化剪裁主要針對卷積核/全連結映射數。主流使用的剪裁思想中,常見的有如下幾種。

特征圖激活前顯著性剪裁:基于仿射變換後的特征數值顯著性判别,對各層特征進行投票,進而移除相應數量的卷積核,如下左圖所示:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

特征圖激活後顯著性剪裁:基于非線性單元(或額外使用了正則化)後的特征顯著性,投票移除相應卷積核,如上右圖所示。

關于Loss梯度顯著性剪裁:基于參數/特征對優化損失計算的導數,結合尺度顯著性,共同判斷權重/特征的有效度,如下左圖所示:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

關于輸出梯度顯著性剪裁:基于參數/特征對輸出值梯度的顯著性,結合尺度判斷其有效性,進行剪裁。如上右圖所示。

基于這四種方向的剪裁也衍生出了一系列方法與讨論,比如顯著性的L0、L1、L2、方差、最大可預測性、梯度二階近似積分、差分近似等測度,我們的算法中對其都進行了嘗試,縱覽對比後将參數量安全降低,算法名額沒有顯著影響。

運算簡化與算耗優化

運算簡化與算耗優化主要針對模型中細節的計算流程,設計簡化與提速方法,降低運算的時間消耗,降低CPU負載與電量消耗,進而使得模型更加具有部署經濟性。

一、低秩與運算分解

模型計算中涉及大量矩陣運算,而一般模型中的過參數假設會使得各中間特征資料的内部具有備援的相關性,這些相關性一部分通過對模型整體的剪裁去除,一部分通過對無用特征的剪裁去除。剩餘的部分在盡可能不降低非線性拟合能力的前提下,難以顯式裁剪。此時使用低秩運算來配合特征中剩餘的相關性,達成對參數的精簡,成為了一個可行的方案。

對音頻資料,一個常見的一維卷積運算可示意如下:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

進行運算分解後,一種方案可如下所示:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

例如,在W=100,Kh=256,Kw=3,F=64的條件下,可節約66%的加法與乘法,削減67%的參數。在我們的算法中,經過對降秩設定的調整,最終節省了參數、達到了提速,而模型效果整體上依然可以保持原水準。

二、短時記憶與延遲優化

在一般的音頻算法設定中,為了将算法實時化,常将輸入截斷為較短的幀序列,分别、單獨地輸入給模型,如下圖所示。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

在這種設定下,補邊資料會導緻一些未完全從音頻資料分布計算得來的“異态資料”,進而産生音頻框效應,使每幀起始聽感受到影響。而加長推演序列尺寸,又會增加延遲。

另一種方法是使用GRU/LSTM等帶有記憶參數的子產品,但這些子產品之外的權重并不具有顯著的記憶性,增加GRU/LSTM子產品的使用又會顯著增加模型尺寸/運算量。另外針對不同延時需要,一般方法常需要訓練多個模型實作,加大了使用者使用的成本,這也是我們希望統一解決的問題之一。

為了降低框效應、減少運算并增大音頻感受野,我們采用了一種逐層短時記憶金字塔的方式來優化運算,如下圖所示:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

使用此方式,每層特征都可以儲存其對應感受野的短時記憶,此短時記憶的時間尺度也可友善地進行計算。該方法可以使得我們的模型能夠儲存各尺度短時記憶金字塔,在擴大感受野的同時,也消除了框效應。

三、動态自适應能耗

在端上運作時,提高算法運作頻率,可以降低音頻輸出的延遲,反之可以節約能耗防止發熱導緻的電量降低與過早降頻。我們基于一套自動化的排程機制,充分利用模型的彈性幀長,為不同性能的機型提供适配的最優體驗。整體算法包括可變初始幀長,與動态幀長排程。

  • 可變初始幀長

排程算法對不同的機型,設定可調可變的初始的分幀幀長。平台硬體條件越高端,則設定幀長越小,相應允許的能耗提高;平台的硬體條件越低端,則設定幀長越大,相應使得能耗降低。

  • 動态幀長排程

我們的實作用,依照下列邏輯對幀長進行排程,其中動态排程子產品會根據使用者硬體溫度、頻率、運算耗時、多任務數、電量等實時狀況,對幀長進行調整,取得延遲與能耗之間的平衡,確定使用者長時間直播的穩定性與算力經濟性。

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

▐  Alidenoise關鍵技術四:算法品質與平穩性保障

模型的輕量化,一般會在不同程度上,降低拟合能力的上限。在輸入資料分布較為集中的情況下,簡單的拟合方式被認為會産生最具泛化性的模型估計。然而,在輸入資料分布較為複雜稀疏的情況下,輕量化的模型會使得參數空間中可行解的數量受到影響,最終展現為降噪結果的不穩定,具體表現為“降噪減弱”,“人聲損傷忽變”,“低頻成分降低”,“噪聲強度伴随人聲音量顯著起伏”等。為對此類現象加以規避與改善,我們在輕量化模型上施加了多種技術來保障輸出的品質,與降噪的平穩性,主要包括:資料均衡與分布控制、降噪加強與力度控制、人聲保護與損傷預防、音質監測與效果評估

資料均衡與分布控制

在實踐中,我們發現資料品質與分布,對主客觀表現均有影響。未經優化的資料集會導緻語音的錯誤抑制。其中值得注意的現象主要為:

  1. 英文人聲發音方式,對中文降噪中低沉發音存在影響。
  2. 嘈雜程度不足的喧嚣噪聲(babblenoise),對語音資料存在對抗影響。
  3. 噪聲多樣性欠缺,對尖銳突發噪聲抑制存在影響。

為了均衡語音中不同類型發音的分布,我們對語音資料以及噪聲種類都進行了分析調整,适配的大緻的結果如下:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

降噪加強與力度控制

一、利用AutoVAD進行降噪加強

為了提升小模型的降噪能力上限,降低噪聲抑制的參數學習量,我們設計了一種模拟VAD的機制來降低噪聲段抑制難度,進而減輕模型的學習負擔。該設計将隔層特征的統計量作為輸入,計算時間軸上的抑制系數,對不含人聲的部分提升抑制能力,該設計如下圖所示:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

經過對無監督VAD子產品的限值激活(Sigmoid),形成一個值域(0-1)的時間向量,與降噪後的資料相乘過濾。

二、降噪力度控制

在通過資料與結構改進提升模型整體降噪學習能力後,在不同場景需求下,對降噪力度的需要也有差異。一般而言,不同降噪強度需要通過不同限制的模型來達成,但這樣會增加體驗的不一緻性與不穩定性,同時加重使用者下載下傳/存儲等負擔。為此,我們設計了兩種友善可調的降噪力度控制方法,可以在不改變模型的前提下,調整模型降噪的性能曲線,進而達成不同等級降噪的控制。

  • 多項式修正控制

該方法中,我們根據聲音保留的目标信噪比,設定了一個多項式形式的修正函數,通過一個參數 µ 控制多項式扭曲的程度,以定向的、平緩地控制一定範圍内的聲音保留。

  • 極值差頻譜修正

娛樂場景中,降噪程度的需求一般會低于會議場景,在其中平緩過渡的過程中,可以基于幀内+幀間語音存在可能性的差異,對語音保留進行控制。該方法檢測每幀各頻段的信噪比情況,判斷人聲頻段附近的最高信噪比,是否達到人聲存在的可能性門檻值,若此時人聲頻率附近的信噪比平均估計過低,則依據幀間動量平滑,降低此幀的抑制程度。

人聲保護與損傷預防

在一般的基于學習的降噪算法中,優化的目标一般為損傷平均值,客觀評估的名額也大都基于各時間子序列上損傷的均值。這在使用中會暴露一些實用問題,一種具體的表現即為:雖然降噪的平均能力較為優異,但實際上降噪能力忽強忽弱、人聲突然減弱或消失,會對使用者的使用體檢産生驟發的、短時的、但較為明顯且嚴重的影響。

我們提出了一些方法來解決應對此類問題,保障降噪後聲音的品質。

  • Distortion Aware Loss

我們提出了一種 Distortion-Aware-Loss 對信号進行保護的機制。該機制利用一個平衡參數 alpha 來控制對語音信号的保護程度。其核心思想是“當語音出現損傷時,其産生的損失值會被放大;當語音沒有損傷時,其産生的loss會被略微縮小”。

當使用“目标值減估計值”作為損傷內插補點時,随着alpha參數的變化,該方法對損失數值的差異化調整曲線如下:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:
  • 分頻保護限制

在研究中我們發現,随着降噪程度的提高,低頻人聲部分的音量降低越來越明顯,這導緻原本沉厚的語音,在變得清晰的同時,因尖銳化而顯得單薄,對原聲的還原度下降。為此,我們設計了一種分頻限制的機制,基于上述對人聲的保護限制,對不同頻段的信号,施加不同的學習任務。基本的邏輯如下:

  • 對低頻設定較高的保護值,使得低頻“甯存噪,不損聲”。
  • 對高頻設定較高的降噪值,使得高頻“主降噪”。

高低頻之間,施加平緩的任務過渡。該限制對Loss影響的圖示如下:

淘寶直播視聽體驗再更新!為主播“安靜”帶貨保駕護航語音增強任務概述基于傳統信号處理的單通道語音增強方案基于深度學習的單通道語音增強方案結合信号處理算法和深度學習類方法的Alidenoise語音增強算法總結與展望參考文獻:

上圖是施加前後的損失頻譜圖,橫坐标為時間,縱坐标為頻率。其中,帶有紅/綠色的位置,表示此處的目标值與估計值有差距,産生了Loss。紅色點位表示此處産生的Loss,是由于人聲過渡削弱導緻,屬于人聲損傷Loss。

綠色點位表示産生的是降噪不足的Loss。可見,經過分頻平緩限制,低頻部分的人聲損傷Loss被放大。而高頻部分的降噪Loss占主導。該方法的應用,使得低頻部分得到了更好的保留。

  • 時域專注限制

解決了一部分人聲損傷與頻帶均衡後,我們發現在一些情況下,噪聲會随着人聲的提高而透出,跟随人聲變化,形成一種類似混響回音的不良效果。為改善此問題,我們提出了一種針對性的限制,其核心思路為:

  • 人聲部分降噪不足,是模型監督不良的展現。
  • 提出假設:純噪聲的抑制,屬于較為簡單的任務。
  • 提出假設:人聲音量較大時進行降噪,屬于中等難度的任務。
  • 提出假設:人聲音量較小時進行降噪,屬于難度較大的任務。
  • 針對“人聲能量較大”或“信噪比較大”的時間部分,加強限制學習,符合由易到難的優化順序。

以此思想設定的限制可描述為:“人聲能量較大”或“信噪比較大”時,Loss權重高;兩者較低時,Loss權重低。

同時,我們對人聲能量、噪聲能量、信号能量比等多種專注向量進行選取整合(乘積、加和、最大值),之後對專注向量進行歸一化,與Loss相乘進行優化。在使用了上述各項保護政策之後,算法客觀名額有效提升,而降噪波動性指數降低,人聲音量與字詞都得到了良好的保護。

音質監測與效果評估

為了在上述整個研究過程中,追蹤主觀客觀的算法表現情況,我們設定了多種角度的評估政策,其中包含:

客觀評估:

  • 中文+各類噪聲客觀評測标準
  • 英文+各類噪聲客觀評測标準
  • 語音泛化性、噪聲泛化性、以及收斂程度測試資料集

主觀評估:

  • 基于ITU相關标準設定的衆包語音降噪品質主觀評測、綜合主觀評測标準
  • 綜合工況主觀評估标準
  • 難樣本主觀測試資料集

等一系列評估标準,用以适配算法研發過程中不同階段的需求。在實踐中,我們發現随着效果的逐漸改進,綜合的主觀評測對算法效果的評估越來越重要,對改善算法在各異環境中的表現有非常重要的指導作用。

▐  Alidenoise關鍵技術小結

  • “聲”動設計理念:為保證人聲部分的高品質,綜合考慮語音幀内不同頻帶的分布差異及時間幀次元語音特性分布的差異,提出了時頻聯合域感覺技術。
  • 高效特征提取:采用了分支-轉換-聚合的提取方式,将輸入分解為多分支低維表示,進行上下文資訊的捕獲,最後通過引入注意力機制對不同支路的表征做自适應權重調整,使得可以在較低計算複雜度下獲得更強的降噪能力。
  • 極緻能耗優化:采用了包括超參優化、結構化剪裁、低秩運算、短時記憶與動态能耗在内的算耗節簡手段,為各類終端裝置全方位提供優享體驗。
  • 穩定品質保障:在資料均衡的基礎上,使用無監督VAD配合降噪力度控制來調整降噪強度,提出了一系列聲音保護限制提升平穩性與音質,并使用主客觀的音質監測評估方法對算法品質進行跟蹤。

總結與展望

為淘寶直播的廣大使用者提供“視”為所見、“聲”臨其境的視聽感受,一直以來都是淘系音視訊技術團隊追求的目标。

借助音頻降噪、檢測、聲效特效、娛樂玩法、内容挖掘、語音輔助、通用輕量化等技術與場景的探索實用,我們将在未來的技術開拓中,持續優化音質畫質,通過主觀品質優化來進一步提升直播間畫質,通過智能PLC技術來恢複網絡丢包,通過場景檢測來識别目前的直播環境,并據此來選擇最佳的語音降噪模式和降噪強度;我們還會研發聲音美化功能,給男主播更磁性的聲線,給女主播更清澈的嗓音;在聲音互動方面,我們還會支援直播連麥的變聲功能,有效保護特定人群隐私。我們還會同達摩院一起,在直播間引入智能語音TTS、ASR能力,提供語音播報、語音消息、實時字幕能力,更好的服務主播和使用者。

創新技術驅動的服務更新,将為億萬淘寶使用者帶來煥然一新的購物體驗。如果您有興趣,歡迎加入我們,一起為智能服務的基礎設施添磚加瓦!

參考文獻:

[1] Xu Y, Du J, Dai L R, et al. A regression approach to speech enhancement based on deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 23(1): 7-19.

[2] Rouat J. Computational auditory scene analysis: Principles, algorithms, and applications (wang, d. and brown, gj, eds.; 2006)[book review][J]. IEEE Transactions on Neural Networks, 2008, 19(1): 199-199.

[3] Gannot S, Burshtein D, Weinstein E. Iterative and sequential Kalman filter-based speech enhancement algorithms[J]. IEEE Transactions on speech and audio processing, 1998, 6(4): 373-385.

[4] Kim J B, Lee K Y, Lee C W. On the applications of the interacting multiple model algorithm for enhancing noisy speech[J]. IEEE transactions on speech and audio processing, 2000, 8(3): 349-352.

[5] Ephraim Y, Van Trees H L. A signal subspace approach for speech enhancement[J]. IEEE Transactions on speech and audio processing, 1995, 3(4): 251-266.

[6] Ephraim Y, Van Trees H L. A signal subspace approach for speech enhancement[J]. IEEE Transactions on speech and audio processing, 1995, 3(4): 251-266.

[7] Ephraim Y, Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. IEEE Transactions on acoustics, speech, and signal processing, 1984, 32(6): 1109-1121.

[8] Ephraim Y, Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J]. IEEE transactions on acoustics, speech, and signal processing, 1985, 33(2): 443-445.

[9] Martin R. Spectral subtraction based on minimum statistics[J]. power, 1994, 6(8).

[10] Martin R. Noise power spectral density estimation based on optimal smoothing and minimum statistics[J]. IEEE Transactions on speech and audio processing, 2001, 9(5): 504-512.

[11] Cohen I, Berdugo B. Speech enhancement for non-stationary noise environments[J]. Signal processing, 2001, 81(11): 2403-2418.

[12] Cohen I. Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging[J]. IEEE Transactions on speech and audio processing, 2003, 11(5): 466-475.

[13] Cohen I, Gannot S. Spectral enhancement methods[M]//Springer Handbook of Speech Processing. Springer, Berlin, Heidelberg, 2008: 873-902.

[14] Esch T, Vary P. Efficient musical noise suppression for speech enhancement system[C]//2009 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2009: 4409-4412.

[15] Scharf L L. Statistical signal processing[M]. Reading, MA: Addison-Wesley, 1991.

[16] Ciregan D, Meier U, Schmidhuber J. Multi-column deep neural networks for image classification[C]//2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012: 3642-3649.

[17] Graves A, Liwicki M, Fernández S, et al. A novel connectionist system for unconstrained handwriting recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2008, 31(5): 855-868.

[18] Senior A, Vanhoucke V, Nguyen P, et al. Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal processing magazine, 2012.

[19] Sundermeyer M, Ney H, Schlüter R. From feedforward to recurrent LSTM neural networks for language modeling[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(3): 517-529.

[20] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Advances in neural information processing systems. 2014: 3104-3112.

[21] Wang Y, Narayanan A, Wang D L. On training targets for supervised speech separation[J]. IEEE/ACM transactions on audio, speech, and language processing, 2014, 22(12): 1849-1858.

[22] Erdogan H, Hershey J R, Watanabe S, et al. Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks[C]//2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015: 708-712.

[23] Williamson D S, Wang Y, Wang D L. Complex ratio masking for monaural speech separation[J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 24(3): 483-492.

[24] Wang D L, Chen J. Supervised speech separation based on deep learning: An overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10): 1702-1726.

[25] Chen J, Wang D L. Long short-term memory for speaker generalization in supervised speech separation[J]. The Journal of the Acoustical Society of America, 2017, 141(6): 4705-4714.

[26] Xu Y, Du J, Huang Z, et al. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement[J]. arXiv preprint arXiv:1703.07172, 2017.

[27] Bai S, Kolter J Z, Koltun V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[J]. arXiv preprint arXiv:1803.01271, 2018.

繼續閱讀