天天看點

【翻譯】Complex Ratio Masking for Monaural Speech Separation

Complex Ratio Masking for Monaural Speech Separation

用于單聲道語音分離的複數比掩蔽

機翻

Donald S. Williamson, Student Member, IEEE, Y uxuan Wang, and DeLiang Wang, Fellow, IEEE

摘要

語音分離系統通常對有噪聲語音進行短時傅裡葉變換(STFT),并僅增強幅度譜而保持相位譜不變。這樣做是因為人們相信相位譜對于語音增強不重要。然而,最近的研究表明相位對感覺品質很重要,導緻一些研究人員考慮幅度和相位譜增強。我們提出了一種監督單聲道語音分離方法,通過在複域中操作,同時增強幅度譜和相位譜。我們的方法使用深度神經網絡來估計在複域中定義的理想比率掩碼的實部和虛部分量。我們報告了所提出方法的分離結果,并将其與相關系統進行了比較。當用幾個客觀名額進行評估時,所提出的方法優于其他方法,包括語音品質的感覺評估(PESQ)和聽力測試,其中受試者以至少69%的比率偏好所提出的方式。

關鍵詞 複數理想比率掩模,深度神經網絡,語音品質,語音分離。

這裡有許多語音應用,其中感興趣的信号被加性背景噪聲破壞。去除這些混合信号中的噪聲被認為是語音處理領域最具挑戰性的研究課題之一。在隻有一個麥克風捕捉信号的單聲道情況下,這個問題變得更加具有挑戰性。雖然單聲道語音分離已經有了很多改進,但仍有強烈的需求來産生高品質的分離語音。

典型的語音分離系統通過增強幅度響應并保持相位響應不變而在時頻(T-F)域中工作,部分原因是[1]、[2]中的發現。在[1]中,進行了一系列實驗,以确定相位和幅度分量在語音品質方面的相對重要性。Wang和Lim根據特定信噪比(SNR)下的噪聲語音計算傅裡葉變換幅度響應,然後通過将其與在另一SNR下生成的傅裡葉轉換相位響應相結合來重構測試信号。然後,收聽者将每個重構信号與已知SNR的未經處理的噪聲語音進行比較,并訓示哪個信号聽起來最好。相位和幅度譜的相對重要性用等效SNR來量化,等效SNR是以50%的速率分别選擇重構語音和噪聲語音的SNR。結果表明,當使用比幅度響應高得多的信噪比重建相位響應時,等效信噪比沒有得到顯著改善。這些結果與先前研究的結果一緻[3]。Ephraim和Malah[2]使用最小均方誤差(MMSE)将語音與噪聲分離,以估計幹淨頻譜,該頻譜包括幅度響應的MMSE估計和相位響應的複指數。他們表明,噪聲相位的複數指數是清潔相位複數指數的MMSE估計。然後,幹淨頻譜的MMSE估計是幹淨幅度譜的MMSE估算與噪聲相位的複指數的乘積,這意味着相位對于信号重建是不變的。

然而,Paliwal等人[4]最近的一項研究表明,當隻增強相位譜而保持噪聲幅度譜不變時,感覺品質的改善是可能的。Paliwal等人将噪聲幅值響應與oracle(即清潔)相位、非oracle(即噪聲)相位和增強相位相結合,其中不比對的短時傅裡葉變換(STFT)分析視窗用于提取幅值和相位譜。客觀的和主觀的(如聽力研究)語音品質測量被用來評估改善。聽力評估涉及一對信号之間的偏好選擇。結果表明,當将oracle相位譜應用于噪聲量級譜時,語音品質得到了顯著的改善,而使用非oracle相位時,語音品質得到了适度的改善。當清潔震級譜的MMSE估計結合甲骨文和非甲骨文相位響應時,結果是相似的。此外,當清潔幅度譜的MMSE估計與增強相位響應相結合時,可獲得較高的偏好分數。

Paliwal等人的工作導緻一些研究人員開發用于語音分離的相位增強算法[5]–[7]。在給定相應的估計STFT幅度響應的情況下,在[5]中提出的系統使用多個輸入頻譜圖反演(MISI)來疊代地估計混合物中的時域源信号。頻譜圖反演通過疊代恢複丢失的相位資訊來估計信号,同時限制幅度響應。MISI使用混合和估計源之和之間的平均總誤差來更新每次疊代的源估計。在[6]中,Mowlaee等人執行MMSE相位估計,其中通過最小化平方誤差來估計混合物中兩個源的相位。這種最小化導緻幾個相位候選,但是最終選擇具有最低群延遲的相位對。然後用它們的幅度響應和估計的相位重建源。科勞茲克和格克曼[7]在給定基頻估計的情況下,通過重構頻率和時間上的諧波分量之間的相位來增強有聲語音幀的相位。無聲幀保持不變。[5]-[7]中的方法都顯示了當階段增強時客觀的品質改進。但是,它們沒有解決幅度響應問題。

促使我們研究相位估計的另一個因素是,監督掩模估計最近被證明可以在非常嘈雜的條件下提高人類語音的可懂度[8],[9]。對于負信噪比,噪聲語音的相位比目智語音的相位更能反映背景噪聲的相位。結果,在增強語音的重建中使用噪聲語音的相位變得比在更高SNR條件下更成問題[10]。是以,在某種程度上,幅度估計在極低信噪比下的成功提高了在這些信噪比水準下進行相位估計的需要。

促使我們研究相位估計的另一個因素是,監督掩模估計最近被證明可以在非常嘈雜的條件下提高人類語音的可懂度[8],[9]。對于負信噪比,噪聲語音的相位比目智語音的相位更能反映背景噪聲的相位。結果,在增強語音的重建中使用噪聲語音的相位變得比在更高SNR條件下更成問題[10]。是以,在某種程度上,幅度估計在極低信噪比下的成功提高了在這些信噪比水準下進行相位估計的需要。

本文定義了複理想比掩模(cIRM)并訓練了一個DNN來聯合估計實部和虛部。通過在複數域中操作,cIRM能夠同時增強噪聲語音的幅度和相位響應。來自聽力研究的客觀結果和偏好分數表明,cIRM估計比相關方法産生更高品質的語音。

本文定義了複理想比掩模(cIRM)并訓練了一個DNN來聯合估計實部和虛部。通過在複數域中操作,cIRM能夠同時增強噪聲語音的幅度和相位響應。來自聽力研究的客觀結果和偏好分數表明,cIRM估計比相關方法産生更高品質的語音。、

【翻譯】Complex Ratio Masking for Monaural Speech Separation

圖一。(彩色線上)幹淨語音信号的示例幅度(左上)和相位(右上)頻譜圖,以及實部(左下)和虛部(右下)頻譜圖。實部和虛部頻譜圖顯示了時間和頻譜結構,并且類似于幅度頻譜圖。在相位譜圖中顯示出很少的結構。

二 短時傅立葉變換 内 結構

當增強噪聲語音的STFT時,通常使用極坐标(即,幅度和相位),如(1)中所定義的

【翻譯】Complex Ratio Masking for Monaural Speech Separation

其中 ∣ S t , f ∣ |S_{t,f }| ∣St,f​∣表示STFT在時間t和頻率f 下的幅度響應, θ S t , f θ_{S_{t,f }} θSt,f​​表示相位響應,STFT表示中的每個T-F機關都是具有實部和虛部的複數。幅度和相位響應直接從實部和虛部計算得出,分别如下所示。

【翻譯】Complex Ratio Masking for Monaural Speech Separation

圖1示出了幹淨語音信号的幅度(左上)和相位(右上)響應的例子。幅度響應顯示出清晰的時間和頻譜結構,而相位響應看起來相當随機。這通常歸因于相位值在[-π,π]範圍内的回繞。當使用學習算法将特征映射到訓練目标時,映射函數中有結構是很重要的。圖1示出了使用DNNs來直接預測幹淨的相位響應不太可能有效,盡管DNNs成功地從噪聲幅度譜中學習幹淨的幅度譜。事實上,我們已經廣泛地嘗試訓練DNNs來從噪聲語音中估計幹淨相位,但是沒有成功。

作為使用極坐标的替代,可以使用複指數的展開在笛卡爾坐标中表達(1)中的STFT的定義。對 STFT 實部虛部定義如下

【翻譯】Complex Ratio Masking for Monaural Speech Separation

圖1的下部示出了幹淨語音的實(左下)和虛(右下)頻譜的對數壓縮絕對值。實部和虛部都顯示出清晰的結構,類似于幅度譜,是以易于監督學習。這些光譜圖看起來幾乎一樣,因為三角餘函數相同:正弦函數與餘弦函數相同,相移為π/2弧度。等式(2)和(3)表明,幅度和相位響應可以直接從STFT的實部和虛部計算,是以增強實部和虛部會導緻幅度和相位頻譜增強。

基于這種結構,一個簡單的想法是使用dnn來預測STFT的複雜成分。然而,我們最近的研究表明,直接預測幅度譜可能不如預測理想的T-F掩模[11]。是以,我們建議預測複理想比掩模的實分量和虛分量,這将在下一節中描述。

複數理想比值掩蔽 及其估計

A 數學推導

傳統的理想比率掩碼是在幅度域中定義的,在本節中我們定義複域中的理想比率掩碼。我們的目标是推導出一個複比例掩碼,當應用于噪聲語音的STFT時,産生幹淨語音的STFT。也就是說,給定噪聲語音的複譜Yt,f,我們得到幹淨語音的複譜St,f,如下:

【翻譯】Complex Ratio Masking for Monaural Speech Separation

其中’ * '表示複數乘法,Mt,f是cIRM。注意Yt,f, St,f和Mt,f是複數,可以寫成矩形形式:

【翻譯】Complex Ratio Masking for Monaural Speech Separation

下标r和I分别表示實分量和虛分量。為友善起見,時間和頻率的下标沒有顯示出來,但給出了每個T-F機關的定義。根據這些定義,式(7)可展開為:

【翻譯】Complex Ratio Masking for Monaural Speech Separation

由此我們可以得出結論,潔淨言語的實成分和虛成分分别為

【翻譯】Complex Ratio Masking for Monaural Speech Separation

用方程式。(12)和(13),定義M的實分量和虛分量為

【翻譯】Complex Ratio Masking for Monaural Speech Separation

給出了複理想比值掩模的定義

【翻譯】Complex Ratio Masking for Monaural Speech Separation

請注意,複理想比掩碼的這個定義與維納濾波器密切相關,維納濾波器是幹淨和噪聲語音的交叉功率譜與噪聲語音[14]的功率譜的複比。

值得一提的是,Sr, Si, Yr和Yi∈R,意味着Mr和Mi∈R,是以,複掩碼可能具有較大的實分量和虛分量,其值在(−∞,∞)的範圍内。回想一下,IRM的取值範圍為[0,1],這有利于使用dnn進行監督學習。較大的取值範圍可能使cIRM估計複雜化。是以,我們用下面的雙曲正切壓縮cIRM

【翻譯】Complex Ratio Masking for Monaural Speech Separation

其中x為r或i,表示實分量和虛分量。這種壓縮産生掩碼值在[−K, K]以内,C控制其陡度。對K和C的幾個值進行了評估,K = 10和C = 0.1在經驗上表現最好,并用于訓練DNN。在測試期間,我們對DNN輸出Ox使用以下反函數來恢複未壓縮掩碼的估計值:

【翻譯】Complex Ratio Masking for Monaural Speech Separation

圖2顯示了cIRM的一個例子,以及幹淨的、噪聲的、cIRM分離的和irm分離的語音的頻譜圖。每個信号的複STFT的實部在圖的頂部,虛部在圖的底部。噪聲語音是由清潔語音信号與工廠噪聲在0 dB信噪比下結合産生的。對于本例,生成的cIRM為K = 1 in(17)。去噪後的語音信号通過取cIRM和噪聲語音的乘積來計算。注意,與幹淨的語音信号相比,去噪後的信号得到了有效的重構。另一方面,irm分離語音去除了大部分噪聲,但它不能像cirm分離語音那樣重建幹淨語音信号的真實和虛構成分。

【翻譯】Complex Ratio Masking for Monaural Speech Separation

圖2所示。幹淨語音、噪聲語音、複理想比掩碼、複理想比掩碼分離語音的實(上)和虛(下)STFT分量譜圖。

B.基于DNN的cIRM估計

用于估計cIRM的DNN如圖3所示。正如之前的研究[11],[15]所做的,dnn有三個隐藏層,每個隐藏層都有相同數量的機關。輸入層被賦予以下一組從64通道伽matone濾波器組中提取的互補特征:振幅調制譜圖(AMS)、相對譜變換和感覺線性預測(RASTA-PLP)、mel頻率倒譜系數(MFCC)和耳蝸譜響應及其增量。使用的特性與[11]中相同。這些特征的組合已被證明對語音分離[16]是有效的。我們還評估了其他特征,包括噪聲幅值、噪聲幅值和相位,以及噪聲STFT的實分量和虛分量,但它們不如互補集。有用的資訊是跨時間幀傳輸的,是以使用滑動上下文視窗将相鄰的幀拼接成每個時間幀[11],[17]的單個特征向量。這用于DNN的輸入和輸出。換句話說,DNN将互補特征的視窗幀映射到每個時間幀的cIRM的視窗幀。**注意輸出層被分成兩個子層,一個用于cIRM的實分量,另一個用于cIRM的虛分量。這種輸出層的y形網絡結構通常用于聯合估計相關目标[18],**在這種情況下,它有助于確定從相同的輸入特征聯合估計實分量和虛分量。

【翻譯】Complex Ratio Masking for Monaural Speech Separation

圖3。利用DNN結構估計複雜理想比掩碼。

針對這種網絡結構,反向傳播算法使用複雜資料的均方誤差(MSE)函數來更新DNN的權值。這個代價函數是來自真實資料的MSE和來自虛資料的MSE的總和,如下圖所示:

【翻譯】Complex Ratio Masking for Monaural Speech Separation

其中N表示輸入的時間幀數,Or(t, f)和Oi(t, f)表示DNN以t - f為機關的實輸出和虛輸出,Mr(t, f)和Mi(t, f)分别對應cIRM的實分量和虛分量。

具體來說,每個DNN隐藏層有1024個機關[11]。整流線性(ReLU)[19]激活函數用于隐藏單元,而線性單元用于輸出層,因為cIRM不在0和1之間有界。采用帶動量項的自适應梯度下降[20]進行優化。動量速率在前5個周期被設定為0.5,之後在剩下的75個周期(總共80個周期),速率改變為0.9。

四、結果

A.資料集和系統設定

該系統在IEEE資料庫[21]上進行了評估,該資料庫由一個男性說話者的720個話語組成。測試集由60個被下采樣到16千赫的純淨話語組成。每個測試話語在信噪比為−6、−3、0、3和6 dB的情況下混合語音形噪聲(SSN)、自助餐廳(Cafe)、語音雜音(babble)和工廠地闆噪聲(factory),産生1200個(60個信号×4噪聲×5 SNRs)混合物。SSN是一個平穩噪聲,而其他噪聲是非平穩的,每個信号大約4分鐘長。從每個噪音最後2分鐘的随機剪輯與每個測試話語混合,建立測試混合物。使用來自IEEE語料庫的500個與測試語料不同的詞訓練估計cIRM的DNN。從每個噪音的前2分鐘截取10個随機片段與每個訓練發音混合,生成訓練集。DNN的混合物在−3、0和3 dB信噪比下生成,在訓練集中産生60000(500信号×4噪聲×10随機切割×3 SNRs)混合物。注意,測試混合物的- 6和6db信噪比在訓練過程中DNN是看不到的。将噪聲分成兩半可以確定在訓練過程中不可見測試噪聲片段。此外,開發集确定DNN和STFT的參數值。該開發集是由50個不同的清晰的IEEE語音生成的,這些語音混合了上述4個噪聲的前2分鐘的随機剪切,信噪比為−3,0,and 3d B。

此外,我們使用TIMIT語料庫[22],它由許多男性和女性說話者的話語組成。通過将500個話語(來自50個揚聲器的10個話語)與上述信噪比為−3、0和3db的噪聲混合來訓練DNN。訓練話語來自35名男性和15名女性。60個不同的話語(來自6個新的說話者的10個話語)被用于測試。測試話語來自4名男性和2名女性。

如第III-B節所述,提供了一個由四個特征組成的互補集作為DNN的輸入。一旦從有噪聲的語音中計算出互補特征,這些特征被歸一化,使其在每個頻率通道上的平均值和機關方差為零。[23]中已經表明,對輸入特征應用自回歸移動平均(ARMA)濾波可以提高自動語音識别的性能,因為ARMA濾波跨時間平滑每個特征次元,以減少來自背景噪聲的幹擾。此外,ARMA濾波器提高了語音分離結果[24]。是以,我們對均值和方差歸一化後的互補特征集進行ARMA濾波。arma濾波後的目前時間幀特征向量是通過目前幀前兩個濾波後的特征向量與目前幀和目前幀後兩個未濾波的特征向量的平均值來計算的。一個跨越五幀(前後兩幀)的上下文視窗将經過arma篩選的特征拼接到一個輸入特征向量中。

訓練DNN來估計每種訓練混合的cIRM,其中cIRM由(16)和(17)中所述的噪聲語音和幹淨語音的stft生成。通過将時域信号分割成40毫秒(640個樣本)重疊幀,使用相鄰幀之間50%的重疊來生成stft。使用Hann視窗,以及640長度的FFT。三幀上下文視窗為輸出層增加了cIRM的每一幀,這意味着DNN為每個輸入特征向量估計了三幀。

方法比較

我們比較了cIRM估計與IRM估計[11]、相敏屏蔽(PSM)[12]、時域信号重構(TDR)[13]和複域非負矩陣分解(CMF)[25] -[27]。與IRM估計的比較有助于确定在複雜領域的處理是否比在幅度領域的處理提供改進,而其他比較确定與這些最近的監督方法(包含一定程度的相位)相比,複雜比率掩蔽的性能如何。

IRM是通過取每個T-F單元[11]的語音能量與語音和噪聲能量之和之比的平方根生成的。使用一個單獨的DNN來估計IRM。輸入特征和DNN參數與那些用于cIRM估計的參數比對,唯一的例外是輸出層對應于幅度,而不是實和虛分量。一旦IRM被估計出來,它就被應用到噪聲量級響應中,它與噪聲相位一起産生語音估計。PSM與IRM相似,不同之處是清潔語音和噪聲語音量級譜之間的比值乘以清潔語音和噪聲語音之間相差的餘弦。理論上,這相當于隻使用cIRM的實分量。TDR通過添加一個子網來執行IFFT,直接重構幹淨的時域信号。這個IFFT子網的輸入由應用于混合幅度的T-F掩碼子網(類似于比率掩碼)的最後一個隐藏層的活動和噪聲相位組成。PSM和TDR估計的輸入特征和DNN結構與IRM估計相比對

CMF是非負矩陣分解(NMF)的擴充,過程中包含了相位響應。更具體地說,NMF将信号分解為基和激活矩陣,其中基矩陣提供光譜結構,激活矩陣将基元素線性組合以近似給定信号。要求兩個矩陣都非負。使用CMF,基和權值仍然是非負的,但是建立了一個相位矩陣,它乘以每個T-F單元,允許每個光譜基确定最适合混合物[26]的相位。我們使用[27]中實作的有監督CMF執行語音分離,其中兩個源(語音和噪聲)的矩陣分别從dnn使用的相同訓練資料進行訓練。語音和噪聲基分别用100個基向量模組化,并用一個跨越5幀的上下文視窗對其進行增強。

為了進行最後的比較,我們将不同的幅值譜與相譜結合起來,以評估增強幅值或相響應的方法。在相位估計方面,我們使用了一種最新的系統,該系統利用估計的基頻重構濁語音的譜相位,增強了噪聲語音[7]的相位響應。分析了相位譜,增強了沿時間相位和沿頻率軸的間隔諧波。此外,我們使用了Griffin和Lim[28]的标準相位增強方法,該方法通過固定幅值響應并隻允許相位響應更新,重複計算STFT和逆STFT。由于這些方法隻增強相位響應,我們将它們與由估計IRM(表示為RM-K&G和RM-G&L)和噪聲語音(表示為NSK&G和NS-G&L)分隔的語音的量級響應結合起來,如[7]所做的。這些幅度譜還與被估計的cIRM分離的語音相位響應相結合,分别記為RM-cRM和ns - crm

c .客觀結果

利用語音品質感覺評價(PESQ)[29]、短時客觀可了解性(STOI)評分[30]和頻率權重段信噪比(SNRfw)[31]三個客觀名額對每種方法分離的語音信号進行評價。PESQ的計算方法是将分離的語音與相應的清潔語音進行比較,得到的分數在[−0.5,4.5]範圍内,分數越高表示品質越好。STOI通過計算幹淨語音和分離語音之間的短時間時間包膜的相關性來衡量客觀的可了解性,得到的分數在[0,1]的範圍内,分數越高表示可了解性越好。SNRfw計算在每個時間幀和關鍵波段聚合的權重信噪比。研究表明,PESQ和SNRfw與人類語音品質評分[31]高度相關,而STOI與人類語音清晰度評分高度相關。

表I、II和III給出了使用IEEE話語的不同方法的客觀結果,分别顯示了混合信噪比為−3、0和3 dB時的結果。粗體表示在噪聲類型中性能最好的系統。從表I開始,在PESQ方面,每種方法對每種噪聲都提供了對噪聲語音混合物的品質改進。CMF對每種噪聲的性能都是一緻的,但它對噪聲語音的PESQ改進最小。估計的IRM(即RM)、估計的cIRM(即cRM)、PSM和TDR都比噪聲語音和CMF産生了相當大的改進,其中cRM對SSN、Cafe和Factory噪聲表現最好。從幅度域的比率掩蔽到複域的比率掩蔽提高了每個噪聲的PESQ分數。在STOI方面,每種算法都對噪聲語音産生了改進,其中CMF提供了最小的改進。估計的IRM、cIRM和PSM的STOI分數大緻相同。在SNRfw方面,估計的cIRM對除Babble噪聲(PSM産生最高評分)外的所有噪聲都表現最好。

在信噪比為0 dB時的性能趨勢與在−3 dB時的性能趨勢相似,如表II所示,每種方法都提高了對未經處理的噪聲語音的客觀評分。與−3 dB時相比,0 dB時的CMF對PESQ和STOI的改善量大緻相同。CMF的STOI得分也是最低的,這與基于nmf的方法往往不能提高語音可解性的普遍了解是一緻的。CMF比噪聲語音平均提高了1.5 dB的SNRfw。預測cIRM而不是IRM可以顯著提高客觀品質。除Babble外,cRM的PESQ評分均優于PSM和TDR。在所有噪聲類型中,RM、cRM和PSM的客觀可了解性得分大緻相同。就SNRfw性能而言,PSM在每種噪聲類型上的性能都略好。

表III顯示了在3 dB時的分離性能,相對于−3和0 dB時的分離性能更容易。一般來說,估計的cIRM在PESQ方面表現最好,而RM、cRM和PSM之間的STOI得分大緻相等。PSM産生的SNRfw評分最高。CMF對噪聲語音的改進是一緻的,但它的性能比其他方法差。上述基于屏蔽方法的結果是在不可見噪聲(即−3、0和3 dB)下對dnn進行訓練和測試時産生的。為了确定是否知道信噪比會影響性能,我們還使用訓練期間看不到的信噪比(即−3和6 dB)對這些系統進行了評估。表IV顯示了−6和6 dB時的平均性能。−6 dB和6 dB的PESQ結果對于SSN、Cafe和工廠噪聲的估計cIRM是最高的,而PSM對于Babble是最高的。對于估計的cIRM、IRM和PSM, STOI結果大緻相同。在SNRfw方面,PSM的性能最好。

【翻譯】Complex Ratio Masking for Monaural Speech Separation

為了進一步分析我們的方法,我們使用TIMIT語料庫評估每個系統(CMF除外)的PESQ性能,如第IV -A節所述。表五顯示了每種噪聲的平均結果,類似于上面的單揚聲器情況,cRM在SSN、Cafe和Factory噪聲方面優于每種方法,而PSM在Babble噪聲方面最好。圖4為分别增強的幅值和相位響應相結合重建語音時的PESQ結果。圖中顯示了每種系統在所有信噪比和噪聲類型下的結果。回想一下,量級響應是從有噪聲的語音或被估計的IRM分離的語音中計算出來的,而相位響應是從被估計的cIRM或[7]、[28]中的方法分離出來的語音中計算出來的。未處理的噪聲語音的結果,估計的cIRM和估計的IRM是從表I到表IV中複制的,并顯示在每種情況下。當使用噪聲幅值響應時(每個圖的下半部分),不同相位估計器之間的客觀品質結果在不同噪聲類型和信噪比下接近。更具體地說,對于咖啡館和工廠噪聲,NS-K&G和NS-cRM的結果是相同的,而NS-G&L的表現略差。當信噪比大于0 dB時,SSN也會出現這種趨勢。當用估計的IRM掩蓋震級響應時,每個相位估計器産生相似的PESQ分數,可以得到類似的結果。這些結果還表明,當這些相位估計器應用于未處理和IRM增強的幅度響應時,有時可以獲得較小的客觀語音品質改善,這可以通過将相位增強信号與未處理的噪聲語音和被估計的IRM分離的語音進行比較看到。這一比較表明,分别加強幅度和相位響應不是最佳的。另一方面,從結果中可以明顯看出,聯合估計cIRM的實分量和虛分量比其他方法在噪聲類型和信噪比條件下的PESQ性能有所提高。

結果

除了客觀結果之外,我們還進行了一項聽力研究,讓人類受試者比較成對的信号。這個任務使用IEEE話語。聽力學習的第一部分比較了複合比率掩蔽與比率掩蔽、CMF以及分别增強幅度和相位的方法。聽力研究的第二部分将cIRM估計與對相位敏感的PSM和TDR進行比較。在研究過程中,受試者選擇他們在品質方面更喜歡的信号,使用偏好評級方法進行品質比較[32],[33]。對于每一對信号,參與者被訓示從三個選項中選擇一個:信号A是首選,信号B是首選,或者信号的品質大緻相同。聽者被要求至少播放一次每個信号。首選方法的評分為+1,另一種方法的評分為−1。如果選擇了第三個選項,每個方法都得到0分。如果受試者選擇了前兩個選項中的一個,那麼他們會提供一個改善分數,從0到4表示品質更高的信号。改進分數為1、2、3和4,分别表明首選信号的品質比其他信号稍好、較好、較好和非常好(見[33])。此外,如果其中一個信号是首選的,參與者會指出他們選擇背後的原因,他們可以指出語音品質、噪聲抑制或兩者都幫助他們做出了決定。

【翻譯】Complex Ratio Masking for Monaural Speech Separation

對于聽力研究的第一部分,通過IV-B生成的信号和方法如第三部分所述,包括估計的cIRM、估計的IRM、CMF、NSK&G和未處理的噪聲語音。在0和3 dB信噪比下,用SSN、Factory和Babble噪聲組合處理的信号進行評估。其他信噪比和噪聲組合并不用于確定處理後的信号對聽者完全可了解,因為我們的目标是感覺品質評估,而不是可了解性。每個主題測試包括三個階段:實踐、教育訓練和正式評估階段,其中,實踐階段使受試者熟悉信号的類型,教育訓練階段使受試者熟悉評估過程。每個相位的信号都是不同的。在正式評估階段,參與者進行120次比較,其中對以下每組進行30次比較:(1)嘈雜語音與估計的cIRM, (2) NS-K&G與估計的cIRM,(3)估計的IRM與估計的cIRM, (4) CMF與估計的cIRM。30次比較相當于每組信噪比(0和3 dB)和噪聲(SSN, Factory和Babble)的組合的5組。研究中使用的話語是從測試信号中随機選擇的,每對話語的呈現順序是随機生成的,而聽者事先并不知道産生信号的算法。這些信号通過Sennheiser HD 265耳機使用個人電腦進行單聽示範,每個信号都被标準化為具有相同的聲級。受試者坐在一個隔音的房間裡。10名受試者(6名男性和4名女性),年齡在23到38歲之間,自稱聽力正常,參加了這項研究。所有的研究對象都以英語為母語,他們都是從俄亥俄州立大學招募來的。每位參與者都因參與而獲得金錢獎勵。

在估計的cIRM和IRM之間進行重要的比較,因為這表明複域估計是否有用。在這一比較中,參與者以89%的比例更喜歡估計的cIRM而不是IRM,其中對估計的IRM和相等分别選擇了1.67%和9.33%的偏好率。估計的cIRM和CMF之間的比較産生了類似的結果,估計的cIRM、CMF和相等的選擇率分别為86%、9%和5%。每次比較的改進分數如圖5(b)所示。該圖顯示,平均而言,使用者表示估計的cIRM比比較方法大約好1.75分,這意味着根據我們的改進評分表,估計的cIRM被認為更好。不同比較的推理結果如圖5( c)所示。參與者表示,當将估計的cIRM與NS、NS- k&g和CMF進行比較時,噪聲抑制是他們選擇的主要原因。當将估計的cIRM與估計的IRM進行比較時,使用者表示聽力學習第一部分的聽力學習結果如圖5(a) - ( c)所示。偏好得分如圖5(a)所示,圖5(a)顯示了每次兩兩比較的平均偏好結果。當将估計的cIRM與噪聲語音(即NS)進行比較時,使用者偏好估計的cIRM的比例為87%,而偏好噪聲語音的比例為7.67%。兩個信号的品質在5.33%的時間是相等的。與NS-K&G的比較結果相似,cRM、NS-K&G和平等偏好率分别為91%、4.33%和4.67%。最語音品質是其選擇的原因,其率為81%,降噪率為49%。

聽力研究的第二部分招募了不同的受試者。共有5名母語為英語的受試者(3名女性和2名男性),年齡在32歲到69歲之間,每個人自述聽力正常,參與了研究。一名受試者也參與了研究的第一部分。cRM、TDR和PSM信号經SSN、Factory、Babble和Cafe噪聲組合處理後,在0 dB信噪比下進行評估。每個參與者進行40次比較,其中20次是cRM和TDR信号之間的比較,20次是cRM和PSM信号之間的比較。對于這兩種情況下的20個比較中的每一個,分别使用4種噪聲類型中的5個信号。這些話語是從測試信号中随機選擇的,聽者對用來産生信号的算法并不知情。當比較cIRM估計與PSM和TDR估計時,受試者隻提供信号偏好。

聽力研究第二部分的結果如圖5(d)所示。平均而言,cRM信号優先于PSM信号,優先率為69%,而PSM信号優先率為11%。聽衆感覺cRM和PSM信号的品質是相同的,比例為20%。受試者對cRM信号和TDR信号的偏好率分别為85%和4%,對TDR信号的偏好率為11%。

五、讨論與結論

一個有趣的問題是,當在複雜領域中操作時,合适的訓練目标應該是什麼。雖然我們已經展示了以cIRM為訓練目标的結果,但我們還對另外兩個訓練目标進行了額外的實驗,即對幹淨語音STFT(簡稱為STFT)的實分量和虛分量的直接估計和對複雜理想比例掩碼的另一種定義。對于cIRM的另一種定義,稱為cir麥芽,将複掩碼的實部應用于噪聲語音STFT的實部,并同樣應用于虛部。掩模和分離方法定義如下:

【翻譯】Complex Ratio Masking for Monaural Speech Separation

在每個T-F單元進行分離。III和IV節中定義的資料、特征、目标壓縮和DNN結構也被用于這兩個目标的DNN,除了STFT,我們發現用雙曲切線壓縮可以提高PESQ得分,但它嚴重損害了STOI和SNRfw。STFT訓練目标是以是不壓縮的。我們還發現,複雜譜的噪聲實分量和虛分量作為STFT估計的特征效果更好。在所有信噪比(−6到6 dB,增加3 dB)和噪聲類型下,這些目标和估計的cIRM的平均性能結果如表VI所示。結果表明,估計的cIRM和估計的cIRMalt之間的性能差異很小,但直接估計STFT的實部和虛部是無效的。

【翻譯】Complex Ratio Masking for Monaural Speech Separation

在本研究中,我們定義了複雜理想比例掩碼,并證明了利用深度神經網絡可以有效地估計它。客觀名額和人體受試者都表明,估計的cIRM優于估計的IRM、PSM、TDR、CMF、未處理的噪聲語音和用最近相位增強方法處理的噪聲語音。對IRM和PSM的改進主要歸功于在複雜域内同時增強了噪聲語音的幅度和相位響應。階段的重要性已經在[4]中得到了證明,我們的結果提供了進一步的支援。結果還表明,作為NMF的擴充,CMF與NMF存在同樣的缺陷,即假設一個語音模型可以線性組合來近似有噪聲語音中的語音,而一個噪聲模型可以縮放來估計噪聲部分。從這些結果和之前[34]、[15]的研究可以看出,在低信噪比和非平穩噪聲的情況下,這一假設并不成立。在CMF中使用相位資訊進行分離不足以克服這一缺點。聽力研究表明,估計的cIRM可以保持人類語音的自然性,在噪聲語音中存在,同時去除大部分噪聲。

一個有趣的現象是,當一個噪聲語音信号從分别估計的幅度和相位響應(即RM-K&G, RM-G&L和RM-cRM)增強時,其性能不如在複域的聯合估計。第四節還展示了用于cIRM估計的DNN結構推廣到不可見的信噪比和揚聲器。結果還顯示了客觀名額和聽力評估之間的差距。雖然聽力評估表明對估計的cIRM有明顯的偏好,但這種偏好在PESQ和SNRfw(尤其是後者)的品質名額中并不明顯。這可能是由于在計算分數[35]時忽略了階段的客觀度量的性質。據我們所知,這是第一個利用深度學習解決複雜領域語音分離問題的研究。未來可能還有改進的空間。例如,應該系統地檢查這種任務的有效功能,可能需要開發新的功能。此外,在深度神經網絡中可能需要引入在複雜領域更有效的新激活函數。

繼續閱讀