天天看點

語譜圖 基頻 共振峰

  • 窄帶語譜圖和寬帶語譜圖

首先,什麼是語譜圖。最通常的,就是語音短時傅裡葉變換的幅度畫出的2D圖。之是以是通常的,是因為可以不是傅裡葉變換。“窄帶”,顧名思義,帶寬小,則時寬大,則短時窗長,窄帶語譜圖就是長窗條件下畫出的語譜圖。“寬帶”,正好相反。至于“橫豎條紋”,窄帶語譜圖的帶寬窄,那麼在頻率上就“分得開”,即能将語音各次諧波“看得很清楚”,即表現為“橫線”。“橫”就展現出了頻率分辨率高。分辨率可以直覺的看做“分開能力”。“頻率分辨率”高就是在頻率上将各次諧波分開的能力高,表現為能分辨出各次諧波的能力高,頻率分辨率越高,越容易分辨各次諧波。類似的,寬帶語譜圖的時寬窄,那麼在時間上就“分得開”,即能将語音在時間上重複的部分“看得很清楚”,即表現為“豎線”。“豎”就展現出了時間分辨率高。時間分辨率越高,譜圖上的豎線看得越清楚。圖1和圖2分别示出了一條語音句子的窄帶語譜圖和寬帶語譜圖。短時窗長度分别是20ms和2ms。

語譜圖 基頻 共振峰

圖1是一條語音及其窄帶語譜圖。上圖是語音時間波形,下圖是上圖的窄帶語譜圖

語譜圖 基頻 共振峰

圖2同一條語音及其寬帶語譜圖。上圖是語音時間波形,下圖是上圖的寬帶語譜圖

圖1虛框框住的部分就是一條橫條紋,整個譜圖中有非常多的這種橫條紋。圖2虛框框住的部分,在小圖中清晰的顯示出了一條一條的“豎線”,被框住的有27條豎線。

  • 從窄帶語譜圖和寬帶語譜圖看基音頻率和共振峰

基音周期表示聲帶的震動周期,每隔這麼長時間(震動周期),有一個氣流通過,“每隔”就展現了周期性,這就是基音周期,那麼譜圖上就應該有這個頻率的信号分量,而且這個頻率的幅度(能量)不應該很小,因為每隔一段時間“就有”一團能量通過聲帶。是以基音頻率所在的成分在窄帶語譜圖上應該是所有橫條紋中頻率範圍最低的那條。在圖1中,用虛線框框住的部分就表示基音頻率成分,與其在同一水準線上的條紋都表示該時刻的基音頻率成分,這條條紋對應的縱軸刻度值就表示基音頻率。從圖1小圖可估計基音頻率大約在250Hz左右,基音頻率略有波動,0.5s處大約是240Hz。其他橫條紋就是各次諧波,這些諧波中有些地方顔色比同時刻其附近其他橫條紋顔色要深,這些顔色深的條紋表示共振峰。有些時刻,顔色較局部附近深的條紋不止一條,這些深色條紋組成了各次共振峰,如第一、第二、第三共振峰。圖2,寬帶語譜圖的基音頻率和共振峰就不清晰了。但是其仍可以看出基音周期,圖2小圖具有明顯的豎線,兩條豎線之間的時間就表示基音周期。在0.44s到0.54s時間段内大約有25條豎線,即24個間隔,則基音周期可估計為(0.54-0.44)/24=4.17ms,則基音頻率估計為240Hz。

  • 從語音時域波形上估計基音周期、頻譜曲線上估計基音頻率

選取0.5s處的一段語音片段,長度為20ms。其時域波形和頻譜如圖3。 

語譜圖 基頻 共振峰

圖3 0.5s處語音片段時域波形及其頻譜 

圖3左圖,用紅圈圈示的尖峰用于估計基音周期,雙向箭頭表示時間範圍内5個圈共4個相似的波段,這4段就表示4個基音周期,則可估計基音周期約為4.25ms,則基音頻率約為235.2941Hz。圖3右圖,頻譜具有明顯小尖峰,這些尖峰在低頻部分(可認為語音頻率3400Hz内)比較有規律且平滑,高頻出現小幅度的“雜亂”,這些“雜亂”表示噪聲,來源有錄音裝置及量化噪聲等(雖然幅度很小,甚至根本就“聽”不出來,但存在是事實)。這些尖峰就是各次諧波,從左往右一次是1次、2次、3次……諧波。其中最左邊的尖峰對應基音頻率,其橫坐标對應的值表示基音頻率,從小圖可看到大約為234.83Hz。利用各次諧波可以得到更精确的估計,圖中用紅圈表示用于估計基頻的諧波,共選取了15個,估計出基頻為234.8337Hz。

  • 從語音頻譜曲線上看共振峰

基音頻率展現的是聲源的資訊,而共振峰展現的是聲道的資訊。為便于比較和觀察,将圖3這個語音片段的源和系統分離,分别展示源的頻譜和聲道的頻譜,觀察一緻性。圖4、5顯示的是源的頻譜、聲道的頻譜、語音的頻譜及共振峰的位置資訊,圖5去掉了小圖。粉紅線是源資訊的頻譜,紅線是語音的頻譜,黑色虛線是語音頻譜的包絡,藍線是聲道頻譜,藍色圈圈标示出聲道頻譜的峰值點,粉紅虛豎線顯示這些峰值點的位置。根據語音産生的源-濾波器模型及源、系統的卷積解釋,語音頻譜的包絡顯示的是聲道的資訊,而小尖峰顯示源的資訊,如諧波。可看到粉紅線和紅線二者的峰值的位置正好一一對應,展現了源的資訊,而且粉紅線(源)明顯沒有包絡峰值,說明聲道的資訊被濾除。同樣,藍線沒有了小尖峰,即濾掉了源的資訊。并且聲道的峰值點位置與語音頻譜包絡的峰值位置也正好一一對應。藍圈圈的個數表示共振峰的個數,共有4個,從左至右分别稱為F1、F2、F3、F4,(F0是基音頻率)。它們橫軸值表示共振峰頻率值,某共振峰帶寬就表示該共振峰所占頻帶寬度。這個圖還暗示了另一個有趣的事實,源所占的頻率範圍和聲道所占的頻率範圍是一樣的,在頻域利用高通或低通或帶通的方法分離源和系統是行不通的。

語譜圖 基頻 共振峰

圖4語音片段時域波形及其源、聲道和語音頻譜。

語譜圖 基頻 共振峰

圖5語音片段時域波形及其源、聲道和語音頻譜。去掉小圖(小圖遮擋了部分資訊)

基音頻率和共振峰是能從譜圖、頻譜上看出來的語音的最基本的資訊,當然可以看出其他更多的資訊。比如,窄帶語譜圖上基本上可以發現,低頻部分,橫條紋比較直,而高頻部分,條紋變“彎”了,這表示什麼?圖1小圖可明顯看到,基音頻率也不是不變的,其也具有波動,我們可以人為的将基頻線連接配接起來為一條曲線,這稱為基音跟蹤。共振峰表示“諧振”,頻譜上表示為頻譜包絡(其實是上包絡)的峰值,那麼頻譜下包絡的谷值點就表示“反諧振”。頻譜的“尖峰”顯示的是源的資訊,小尖包突起是周期性的,是有用的,那麼“雜亂”的源頭是非周期性的,這在語音轉換中是一種很重要的資訊。

PS:1、源-系統資訊分離和提取參考論文: 

“Glottal wave analysis with pitchsynchronous iterative adaptive inverse filtering” Paavo Alku. SpeechCommunication 11(2-3): 109-118 (1992) 

2、源-系統分離代碼連結:http://users.tkk.fi/~traitio/research.html

繼續閱讀