天天看點

基于節拍譜的語音音樂分類模型

節拍譜的取得方式為按照論文《THE BEAT SPECTRUM:A NEW APPROACH TO RHYTHM ANALYSIS》獲得,但是在分類中,有點陰差陽錯的計算出不同的結果。

按照得到的節拍譜後,使用門檻值對節拍譜判定得到語音音樂兩類分類。

根據音頻的相關特征的語音音樂分類的算法的流程圖如圖1所示。

基于節拍譜的語音音樂分類模型

圖 1 算法流程

其具體的算法步驟如下:

步驟1:提取MFCC參數。其提取原理框圖如圖2所示。預處理包含分幀加窗等。FFT為快速傅裡葉變換。Mel-Filtering為梅爾三角濾波器組,DCT為離散餘弦變換。本實驗使用MATLAB的MFCC函數來提取得到MFCC參數。

基于節拍譜的語音音樂分類模型

圖 2 MFCC參數提取過程

步驟2:用餘弦相似度計算特征參數兩兩之間的相似性,可得到一個相似矩陣。其中語音信号的節拍沒有周期性的規律,音樂信号會周期性地形成峰值。本實驗使用MATLAB的COS函數來計算得到特征向量的相似性。餘弦距離更多的是從方向上區分差異,而對絕對的數值不敏感,正因為餘弦相似度在數值上的不敏感,隻能分辨個體在維之間的差異,沒法衡量每個維數值的差異,是以得到的相似矩陣更能展現出節拍的周期性規律。

步驟3:用相似矩陣的自相關性得到節拍譜。它能夠反映節奏的周期性變化規律,節拍譜不依賴于能量或頻率等特定屬性,是以适用于任何類型的音樂或音頻,其反應了節拍周期性變化規律。本實驗使用MATLAB的xcorr函數來計算其自相關。節拍譜中的峰值對應于音樂信号中的主要節奏成分,不同峰的相對振幅反映了其對應韻律成分的強弱。一些擁有強烈節奏感的音樂的節拍譜的峰值變化會比較明顯,而節奏感比較弱的峰值變化會稍微弱些。

基于節拍譜的語音音樂分類模型

圖 3 語音節拍譜圖

基于節拍譜的語音音樂分類模型

圖 4 音樂節拍譜圖

圖3為語音的節拍譜圖,圖4為音樂的節拍譜圖,可以看到音樂具有明顯的起伏。

步驟4:歸一化。歸一化目的把得到的資料限制在一定區間内,使得各個音頻的資料易于後續的處理。

步驟5: 統計并計算門檻值判定音頻類别。門檻值基于總體判定的準确率來設定的,判定流程如圖4。當語音或音樂的準确率下降過大時,則門檻值調整完畢。

基于節拍譜的語音音樂分類模型

圖 4 門檻值判定流程圖

h t t p s : / / d o w n l o a d . c s d n . n e t / d o w n l o a d / d i a n t o n g q i n g j i e / 20469329 https://download.csdn.net/download/diantongqingjie/20469329 https://download.csdn.net/download/diantongqingjie/20469329

繼續閱讀