天天看點

深度學習聲紋識别_聲紋識别發展綜述

深度學習聲紋識别_聲紋識别發展綜述

本文主要圍繞幾個主題展開:

  1. 聲紋識别的發展曆程
  2. 目前的主流方向,基于深度學習的聲紋識别
  3. 最後介紹一下相關的其他語音技術

首先我們來看下聲紋的概念及為什麼可用于識别

聲音就是一段波,聲紋就是攜帶了資訊的聲波頻譜

深度學習聲紋識别_聲紋識别發展綜述

聲紋特征與其他生物特征的對比及特點

深度學習聲紋識别_聲紋識别發展綜述

聲紋識别在産品上的本質主要就是以下兩種工作方式: 1比1 和 1比N

深度學習聲紋識别_聲紋識别發展綜述

工作流程大緻如下:

  1. 提取語音,預處理,提取特征
  2. 利用訓練好的模型,計算該語音對應的聲紋模型或者聲紋特征
  3. 最後進行相似度打分,得到結果
深度學習聲紋識别_聲紋識别發展綜述

由此我們可以看出聲紋識别主要就是三大部分:

特征,模型,得分

。下面根據這三大要素分别闡述

聲紋識别三大部分:特征,模型,得分

首先看下這三大部分的整體技術流派和技術發展路線

深度學習聲紋識别_聲紋識别發展綜述
語音特征介紹
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述

聲紋模型的衍進

傳統的聲紋識别 主要是基于統計思想和機率論,結合聲學,信号學,機器學習等算法

2012年,跨入了以deep learning 為主線的算法,DNN-based系統陸續出現,并基于深度學習領域的新思想持續改良

近兩年發展起來的End-to-End 端到端系統,代表:2018年谷歌百度的相關論文

可以參考回答

聲紋識别算法有哪幾種?​www.zhihu.com

深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述

https://www.zhihu.com/question/53707809/answer/316946465

深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述

基于深度學習的聲紋技術

深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述

上面的網絡結構中,有一個Statistics Pooling Layer,負責将Frame-level Layer,Map到Segment-Level Layer,計算frame-level Layer的Mean和standard deviation。TDNN是時延架構,Output Layer可以學習到Long-Time特征,是以x-vector可以利用短短的10s左右的語音,捕捉到使用者聲紋資訊,在短語音上擁有更強的魯棒性。

深度學習聲紋識别_聲紋識别發展綜述

其他語音技術介紹

深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述
深度學習聲紋識别_聲紋識别發展綜述