天天看點

端到端說話人驗證系統中長度歸一化的分析

Analysis of Length Normalization in End-to-End Speaker Verification System

端到端說話人驗證系統中長度歸一化的分析

摘要

經典的i-vector和最新的端到端深度說話人嵌入是自動說話者驗證系統中話語級表示的兩個代表性類别。傳統上,一旦提取了i-vector或深度說話人嵌入,我們依靠額外的長度歸一化步驟來在後端模組化之前将表示标準化為機關長度超空間。在本文中,我們探讨了神經網絡如何以端到端的方式學習長度歸一化的深層說話人嵌入。為此,我們在公共分類網絡的輸出層之前添加一個長度标準化層,後跟一個比例圖層。我們對Voxceleb1資料集的驗證任務進行了實驗。結果表明,在端到端教育訓練管道中內建這一簡單步驟可顯着提高說話人驗證的性能。在我們的L2标準化端到端系統的測試階段,簡單的内部産品可以實作最先進的技術。

索引術語:說話人驗證,長度歸一化,端到端,深度說話人嵌入

1.簡介

說話人識别(SR)任務可以被定義為話語級别的“序列對一”學習問題。問題在于我們試圖檢索關于整個話語的資訊而不是特定的單詞内容[1]。此外,對詞典單詞沒有限制,是以訓練話語和測試片段可能具有完全不同的内容[2]。是以,給定輸入語音資料,目标可以歸結為将它們轉換為話語水準表示,其中類間變異最大化并且同時使類内變異最小化[3]。

通常,SR可以分類為說話人識别(SID)任務和說話者驗證(SV)任務[4]。前者将說話者分類為特定身份,而後者則确定一對話語是否屬于同一個人。對于開放式協定,測試集中的說話者身份通常與訓練集中的說話者身份不相交,這使得SV更具挑戰性,但更接近實踐。由于将測試話語分類為訓練集中的已知身份是不可能的,是以我們需要将說話人映射到判别特征空間。在這種情況下,開集SV本質上是一個度量學習問題,其關鍵是學習有差別的大邊緣說話人嵌入。

通常有兩類用于獲得話語級别的說話人表示。第一個由一系列分離的統計模型組成。代表是經典的i-vector方法[5]。首先,從原始音頻信号中提取幀級特征序列。然後,将訓練資料集中的標明要素框組合在一起,以估計基于高斯混合模型(GMM)的通用背景模型(UBM)[6]。累積了對UBM上每個話語的充分統計,并且訓練了基于因子分析的i-vector提取器以将統計量投影到低秩總變異性子空間[5]。

另一類依賴于通過端到端深度神經網絡[7,8,9,10]的下遊程式訓練的模型。首先,以與i-vector方法相同的方式,也提取幀級特征序列。然後,自動幀級特征提取器,如卷積神經網絡(CNN)[8,11],延時神經網絡(TDNN)[9]或長期短期記憶(LSTM)網絡[7,12]是被設計為獲得進階抽象表示。之後,在頂部建構統計彙集[9]或編碼層[13]以提取固定次元話語級别表示。該話語級表示可以通過完全連接配接(FC)層進一步處理,最後與輸出層連接配接。端到端管道中的所有元件都通過統一的損失功能共同學習。

在經典的i-vector方法中,需要一個額外長度的标準化步驟,以便在後端模組化之前将表示規範化為機關長度超空間[14]。當它變成端到端系統時,一旦我們從神經網絡中提取深層說話人嵌入,例如x-vector [15],在計算成對分數時也需要這個長度歸一化步驟。

在本文中,我們探索端到端SV系統,其中長度歸一化步驟在深度神經網絡中固有地内置。是以,神經網絡可以學習以端到端方式進行長度歸一化的說話者嵌入。

  1. 相關工作

2.1.i-vector方法中的長度歸一化

長度歸一化已被分析并證明是SR的有效政策,但在傳統的i-vector方法中受到限制[14]。如圖1所示,i-vector上的這種簡單的非線性變換在後端模組化之前已成為事實上的标準[16,17]。

對于閉集SID任務,通常采用長度歸一化,然後采用邏輯回歸或支援向量機來獲得說話人類别的後驗機率。對于開放式SV任務,餘弦相似性或長度标準化後跟機率線性判别分析(PLDA)評分[18,19]模組化被廣泛用于獲得最終的成對分數。餘弦相似度是一種與幅度無關的相似度,它可以看作是兩個向量的内積的長度歸一化版本。在上述系統中,前端i-vector模組化,長度标準化步驟和後端模組化都是互相獨立的,并且是分開執行的。

端到端說話人驗證系統中長度歸一化的分析

2.3常用端到端深層說話人嵌入系統的長度歸一化

對于開放式SV任務,由于不可能将測試結果分類為訓練集中的已知身份,端到端分類網絡扮演自動說話人嵌入式提取器的角色,如圖1所示。 2.一旦提取出深度說話人嵌入(例如x向量),就像在i-vector方法中一樣,通常需要PLDA跟随的餘弦相似性或長度歸一化來獲得最終的成對分數。 值得注意的是,無論是餘弦相似度還是PLDA模組化,長度歸一化都是對提取的說話人嵌入執行的額外步驟,并且是端到端的方式。

3.深度标準化

如2.1節所述,傳統i-vector方法中的後端模組化通常在機關長度超空間上執行。然而,當它變成端到端深度神經網絡時,實際上後端softmax分類器通常采用基于内積的FC層而不進行歸一化。這意味着如果我們想要在提取的深層說話人嵌入(例如代表性x向量)上執行餘弦相似性或PLDA,我們應該首先用機關長度手動标準化它們。

它激勵我們,是否有可能在普通分類網絡中以端到端的方式學習深度說話人嵌入的長度标準化。人們可能會想到端到端方式的長度歸一化或端到端方式之間的實質差異。這個問題已由[23,24]在計算機視覺社群中進行了研究。深度标準化的效果相當于在原始損失函數上添加L2限制。由于深度說話人嵌入以端到端方式進行長度歸一化,我們的優化對象不僅要求說話人嵌入分離,還要求限制在一個小機關超空間。這使得教育訓練網絡變得更加困難,但另一方面,可以大大提高其網絡化能力。為此,一種天真的做法就是在輸出層之前添加L2規範化層。但是,我們發現教育訓練過程可能不會收斂并導緻相當差的性能,特别是當輸出數量 - gories非常大。原因可能是機關長度超球面的表面積不足以容納如此多的說話人嵌入,但也允許它們的每個類别是可分離的。

正如在[23,24]中所做的那樣,我們引入了一個尺度參數α來将長度标準化的說話人嵌入成形為合适的半徑。刻度層可以将機關長度的說話人嵌入縮放到由參數α給出的固定半徑。是以,我們引入的深度長度歸一化的完整公式可表示為

端到端說話人驗證系統中長度歸一化的分析
端到端說話人驗證系統中長度歸一化的分析
端到端說話人驗證系統中長度歸一化的分析

我們基于Kaldi工具包建構了一個引用的i-vector系統[26]。 首先,20維梅爾頻率倒譜系數(MFCC)增加了它們的delta和double delta系數,進而形成了60維MFCC特征向量。 然後,基于能量的幀級語音活動檢測(VAD)選擇與語音幀相對應的特征。 訓練2048分量的全協方差GMM UBM,以及400維i矢量提取器和滿秩PLDA。

4.3端到端系統

音頻轉換為64維日志mel-filterbank内容,幀長為25 ms,在最多3秒的滑動視窗内進行均值歸一化。基于能量的幀級語音活動檢測(VAD)選擇與語音幀相對應的特征。為了獲得更高水準的抽象表示,我們設計了一個基于着名的ResNet-34架構[27]的深度卷積神經網絡(CNN),如表1所示。其次是前端深CNN,我們采用最簡單的平均彙總層來提取話語級均值統計。是以,給定形狀為64L的輸入資料序列,其中L表示可變長度資料幀,我們最終得到128維話語級别的表示。

該模型采用128的小批量訓練,使用典型的随機梯度下降,動量為0.9,重量衰減為1e-4。學習率設定為0.1,0.01,0.001,并在訓練失敗時切換。對于每個訓練步驟,随機生成[300,800]區間内的整數L,并将小批量中的每個資料裁剪或擴充為L幀。模型訓練完成後,在倒數第二層神經網絡後提取128維說話人嵌入。

端到端說話人驗證系統中長度歸一化的分析

我們首先研究尺度參數α的設定。對于表3和圖4中的那些系統,采用餘弦相似性或等效的L2歸一化内積來測量說話人嵌入之間的相似性。從圖4中我們可以觀察到所提出的L2标準化深度嵌入系統達到最佳minDCF為0.475,0.586和EER為5.01%,顯着優于基線系統。根據等式(3),對于1211的說話人類别C和0.9的機率分數p,α的理論下限是9.當α低于下限并且α高于α時,性能差。下限。我們中最好的α

實驗是12,它比下限略大。我們進一步比較了整個SV管道中深度長度歸一化政策和傳統超長度歸一化的影響。結果顯示在表2中。無論在i-vector還是基線深度說話人嵌入系統中,額外長度歸一化步驟随後PLDA評分達到

最好的表現。當它變成L2标準化深度說話人嵌入系統時,由于從神經網絡中提取的說話人嵌入已經被标準化為機關長度,我們不需要額外的長度标準化步驟。在測試階段,簡單的内部産品可以獲得最佳性能,甚至比PLDA評分結果略好。這可能是我們的L2标準化說話人嵌入高度優化的原因,這可能是不相容的PLDA引入的目标函數。

端到端說話人驗證系統中長度歸一化的分析

5結論

在本文中,我們探索了端到端SV系統中的深度規範化政策。我們在深度神經網絡的輸出層之前添加了一個L2規範化層,後面是一個縮放層。這種簡單而有效的政策使學到了

深度說話人嵌入以端到端方式歸一化。比例參數α的值對系統性能至關重要,特别是當輸出類别的數量很大時。實驗表明,通過設定适當的α值可以顯着提高系統性能。在裡面L2标準化深嵌入系統的測試階段,簡單的内部産品可以實作最先進的技術。

繼續閱讀