深度學習聲紋識别_聲紋識别發展綜述

本文主要圍繞幾個主題展開：

聲紋識别的發展曆程
目前的主流方向，基于深度學習的聲紋識别
最後介紹一下相關的其他語音技術

首先我們來看下聲紋的概念及為什麼可用于識别

聲音就是一段波，聲紋就是攜帶了資訊的聲波頻譜

深度學習聲紋識别_聲紋識别發展綜述

聲紋特征與其他生物特征的對比及特點

深度學習聲紋識别_聲紋識别發展綜述

聲紋識别在産品上的本質主要就是以下兩種工作方式： 1比1 和 1比N

深度學習聲紋識别_聲紋識别發展綜述

工作流程大緻如下：

提取語音，預處理，提取特征
利用訓練好的模型，計算該語音對應的聲紋模型或者聲紋特征
最後進行相似度打分，得到結果

深度學習聲紋識别_聲紋識别發展綜述

由此我們可以看出聲紋識别主要就是三大部分：

特征，模型，得分

。下面根據這三大要素分别闡述

聲紋識别三大部分：特征，模型，得分

首先看下這三大部分的整體技術流派和技術發展路線

深度學習聲紋識别_聲紋識别發展綜述

語音特征介紹

深度學習聲紋識别_聲紋識别發展綜述

聲紋模型的衍進

傳統的聲紋識别主要是基于統計思想和機率論，結合聲學，信号學，機器學習等算法

2012年，跨入了以deep learning 為主線的算法，DNN-based系統陸續出現，并基于深度學習領域的新思想持續改良

近兩年發展起來的End-to-End 端到端系統，代表：2018年谷歌百度的相關論文

可以參考回答

聲紋識别算法有哪幾種？www.zhihu.com

深度學習聲紋識别_聲紋識别發展綜述

https://www.zhihu.com/question/53707809/answer/316946465

深度學習聲紋識别_聲紋識别發展綜述

基于深度學習的聲紋技術

深度學習聲紋識别_聲紋識别發展綜述

上面的網絡結構中，有一個Statistics Pooling Layer，負責将Frame-level Layer，Map到Segment-Level Layer，計算frame-level Layer的Mean和standard deviation。TDNN是時延架構，Output Layer可以學習到Long-Time特征，是以x-vector可以利用短短的10s左右的語音，捕捉到使用者聲紋資訊，在短語音上擁有更強的魯棒性。

深度學習聲紋識别_聲紋識别發展綜述

其他語音技術介紹

深度學習聲紋識别_聲紋識别發展綜述

深度學習聲紋識别_聲紋識别發展綜述

聲紋識别三大部分：特征，模型，得分

聲紋模型的衍進

基于深度學習的聲紋技術

其他語音技術介紹

繼續閱讀

MTGAN:通過多任務三元生成對抗性網絡對說話人進行驗證

用于I-Vector空間中說話人驗證的餘弦度量學習

使用Mises-Fisher混合器實作自然音頻流的魯棒說話人聚類

學習說話人識别和驗證的判别特征