Kaldi中語音資料增強方法

2023-05-22 06:18:29

在實際應用中，有時候資料不是很多，可以用資料增強方式

擴充資料，在小的資料集上效果比較明顯。

語音資料增強主要有以下幾種方式：

音速擾動sp

utils/data/perturb_data_dir_speed_3way.sh

音量擾動vp

utils/data/perturb_data_dir_volume.sh

kaldi裡面資料增強腳本是存放在utils/data 目錄下。

加上去年谷歌提出新型自動語音識别SpecAugment資料增強方式

SpenAugment參考了圖像的做法，SpenAugment方法直接增強了頻譜圖，而不再是音波資料上。這種方法的資料增強是直接使用在輸入特征上的，可以實時動态添加，而不需要像對音波進行資料增強一樣有很多計算代價而影響到訓練速度。

Kaldi中語音資料增強方法

采用扭曲時域信号，掩蓋頻域通道，和掩蓋時域通道，修改了頻譜圖。

Kaldi中語音資料增強方法

在kaldi裡面已經有将SpenAugment內建進去，在network.xconfig中增加

spec-augment-layer name=spec-augment freq-max-proportion=0.5 time-zeroed-proportion=0.2 time-mask-max-frames=20

delta-layer name=delta input=spec-augment即可。

我嘗試用SpecAugment資料增強方式訓練模型，在minilibirispeech上訓練，WER降低了兩個點左右，還是有提升。我在300多個小時的英語資料集合上用了6個epochs并沒有發現有提升，可能還要加大epochs，由于增加epochs會增加訓練時間，我并沒有繼續實驗下去。看到danpovey在論壇中讨論說libirispeech上并沒有複現出來，

谷歌可能是在TPU上訓練幾百個epochs實驗出來的。

Kaldi中語音資料增強方法

繼續閱讀

Linux 16.04 + CUDA8.0 + kaldi + CNTK

李宏毅深度學習 Transformer一、Transformer是什麼二、訓練Transformer的Tips

7-FreeSwitch-mrcp-plugin-with-freeswitch（親測可用，自我整理）

百度語音識别SDK使用方法

放肆玩，一起玩！這次鴻蒙4主打一個時尚、智慧、流暢。【設計更年輕更時尚】這應該是鴻蒙視覺層面迄今為止最大幅度更新。雜志化

基于MATLAB的多方法車牌識别識别系統【GUI，多方法，對比，語音播報，出入庫，剩餘車位】...

基于MATLAB的車票識别系統

基于MATLAB的說話人識别系統

基于ASRT中文語音識别系統的優化

2018自然語言研究報告

【新到車型】雷克薩斯2020款ES200豪華版【上牌時間】2021年3月【行駛裡程】4.7萬KM【4S店指導價】30.9

MATLAB神經網絡手寫數字識别（GUI界面）

語音識别，語義了解一站式解決（android平台&olami sdk）

Android語音識别SDK語義了解與解析方法

語音識别之HTK重了解

電話機器人API接口-空号識别-座席WEBAPI