天天看點

音質評價(二):音質好壞由什麼決定

音質評價(二):音質好壞由什麼決定

聽過很多道理,卻依然過不好這一生

引言:聽過很多道理,卻依然過不好這一生

在動筆寫本文的時候,腦袋裡竄出的第一句話是一句經典台詞,“聽過很多道理,卻依然過不好這一生”。看過《後會無期》的人,一定對這句話還有印象。類似的道理,其實放在這期音質評價專題中依舊适用,“聽過很多道理,依舊很難評判音質好壞”。

且試試看你聽不聽得出音質好壞

這樣說,各位怕是不服,在開始擺道理之前,大家可以做個測試。點進下面這個連結,帶上你最好的耳機,試試看你是否能聽得出來這幾個音頻的好壞。

https://www.npr.org/sections/therecord/2015/06/02/411473508/how-well-can-you-hear-audio-quality

連結裡一共有6組視訊,分别找出其中你認為音質最好的一個并打鈎。6組視訊分别采用不同碼率和編碼方式,理論上是有音質差别的,如果6個你都答對了,那麼恭喜你已經打敗全世界97%的人。

音質評價(二):音質好壞由什麼決定

選出你認為音質最好的

放這組實驗,目的倒不是為了說明音質跟參數無關,隻是想表達對一般人而言,部分參數的調整可能并不真的影響使用者體驗,充分測試,選擇一個适合你的參數方案才是最重要的。犧牲一些影響較小的參數,算清楚産品的經濟賬,是目前市面上大多數産品的選擇,畢竟隻有活着的公司才能笑到最後。

哪些因素會影響音頻的品質?

這裡先上結論:有N多的因素會影響音頻的品質,N多是多少?音頻從生産到消費的全過程,包括采集、傳輸、存儲、播放,各個環節都有影響音質的因素存在,比如下面這些。

采集:環境噪音、采集裝置好壞;

壓縮:模拟信号轉為數字pcm信号的時候就有損失,可以嘗試提高采樣率比如48k;

網絡傳輸延遲比如編碼、打包、網絡傳輸、jitter buffer

網絡丢包:比如rtc使用udp傳輸,丢包是必然的;

jitter抖動:比如rtc使用udp傳輸 資料丢失,可以使用jitter buffer;

回聲:聲學原因:布局、混響、延時大小、單雙講, 電學:信号幹擾;

如果要對優化音質,就要從全鍊路進行優化,從采集階段的麥克風等裝置接口開始。

本文不發散,僅就數字音頻檔案 “采樣率”、“編碼格式”、“碼率”等幾個關鍵要素做探讨,一起來看看這幾個關鍵參數對音質的影響是怎樣的。

多高的音頻采樣率才夠用:

PCM是能達到音頻最高保真水準的格式,它被廣泛用于素材儲存及音樂欣賞,PCM也是以被稱為無損編碼格式。但這并不意味着 PCM 就能夠確定信号絕對保真,它隻能做到最大程度的無限接近原始聲音,為什麼這麼講呢?

在上文中講到,采樣是把連續的聲音模拟信号轉換為離散的數字信号的手段,那麼在這個采樣過程中,用多高的采樣率是合理的呢?

帶着上面的兩個疑問,讓我們重新複習一下奈奎斯特定理(Nyquist- Shannon),奈奎斯特采樣定理是信号處理領域的一個定理,它是連續時間信号和離散時間信号之間的基本橋梁。

詳細的推導過程不展開直接上結論,奈奎斯特定理告訴我們,用原始信号頻率2倍以上的采樣率對該信号進行采樣就不會出現頻率堆疊,就能夠用離散信号重建出連續信号。

還記得上節講到,人耳能聽到的最高頻率約為20kHz,根據奈奎斯特采樣定理,44.1kHz(又稱為cd标準)已經能完全還原人耳能聽到的聲音,是以從原理上講,采用更高的采樣率對音質已經沒什麼幫助了。

有了以上的推導,開始的兩個問題就有了答案:a)從連續到離散的過程變化,注定了隻能是接近;b)超過2倍于原始頻率的采樣頻率就能重建原始信号,40kHz以上就“夠了”;

如果你對音頻有一定了解,你那麼你一定也好奇以下幾個問題:

人耳能聽到20kHz,為什麼不用40kHz要用44.1kHz?

簡單解釋就是奈奎斯特定律描述的是理論上的極限值,實際上你的器件、算法的性能是達不到理論極限的,實操過程中要留一定的餘量,是以40kHz不夠用。

至于為什麼是44.1kHz,這就是曆史遺留原因了,跟早期錄音裝置有關,早期錄音使用的是PAL錄像制式(帕制,與之對應的有NTSC),場頻 50Hz ,可用掃描線數 294 條,一條視訊掃描線的磁迹中記錄3個音頻資料塊,把他們相乘,就得到了 44100。

為什麼48kHz也很常用

另一種最為常見的采樣率便是48kHz,它是電影以及視訊聲音的主要标準。這是因為它的設計與現有的每秒24幀的電影幀速率标準互相內建。而與奎斯特頻率類似,24幀是剛好可以使得一系列圖像看起來像是流暢的運動圖像的神奇數字。而音頻采樣率必須要是幀速率的倍數,才能保持同步,44.1kHz會随着時間的推移而導緻明顯的音畫不同步現象,是以48kHz的采樣率最為合适。

44.1kHz已經夠了,為什麼還要有96kHz、128kHz這些更高的采樣率?

超過44.1kHz時人耳确實已經聽不出差别了,但是有些樂器能發出更高頻的聲音,為了更好的儲存這部分人類目前感覺不到的聲音,可以采用更高的采樣頻率,算是為未來做準備吧!

人耳能聽到最高頻率約為20kHz,根據采樣定理,44.1kHz(cd标準)已經能完全還原人耳能聽到的聲音。更高的采樣率對音質對于人耳識别更好的音質,本質上是沒什麼幫助的。

“mp3”的音質差在哪?

為什麼通常mp3格式的音頻品質,我們感覺會比其他格式差很多?常聽歌的人,通常會下載下傳wav格式或者flac格式的音頻,為什麼大家天然不信任“mp3”的音質?

忽略網絡傳輸、錄制環境等因素,單從轉碼控制變量的角度聊聊音質問題。前篇講到了數字音頻三要素,既然是要素,那必然是對音頻品質有重要的影響。我們就從三要素為出發點對音頻品質進行分析。

以QQ音樂下載下傳的經典測試歌曲Hotel California為例,QQ音樂提供了4種音質,分别為 标準品質/HQ高品質/SQ無損品質/Hi-Res品質。

大家可以聽聽對比試試,再挑戰一下自己的耳朵。

音質評價(二):音質好壞由什麼決定

音樂軟體提供的4中不同音質

下表整理了4種音質的關鍵參,大家數做一下對比:

品質類别 碼率 編碼格式 采樣率 聲道數 位深 檔案大小
标準品質 129 kb/s mp3 44.1 kHz stereo s32 6.05MB
HQ高品質 321 kb/s mp3 44.1 kHz stereo s32 15MB
SQ無損品質 803 kb/s Flac 44.1 kHz stereo s16 37.5MB
Hi-Res品質 2725 kb/s Flac 96 kHz stereo s32(24 bit) 127MB

幾個參數的含義:

Stereo為雙聲道,Mono為單聲道,s16為16位;

從上表的參數對比中,不難看出其中的差別,越是好音質,碼率越高,且不再使用mp3格式。單從參數情況看上去是這樣,實際情況如何呢,一起用眼睛“看看”音質的差别吧。

如何用肉眼看出音質差别?

下面分别看一下四首歌曲的頻譜圖,音質從高到低,看你是否能發現一些差別(軟體使用介紹放在篇5中):

音質評價(二):音質好壞由什麼決定

Hi-Res檔案頻譜圖

音質評價(二):音質好壞由什麼決定

SQ無損檔案頻譜圖

音質評價(二):音質好壞由什麼決定

HQ高品質檔案頻譜圖

音質評價(二):音質好壞由什麼決定

标準品質檔案頻譜圖

肉眼可見有以下幾個差別,這也是通過對比頻譜圖直覺感受音質的參考辦法:

梅爾刻度範圍

Hi-Res檔案頻譜圖最上邊參差不齊,整體高頻部分都在24k左右,部分“毛刺”達到40k以上;

SQ無損檔案高頻部分在21.5kHz做了裁剪;

HQ檔案高頻部分在20kHz做了裁剪;

标準品質檔案在16.5k附近做了裁剪;

音質評價(二):音質好壞由什麼決定

Hi-Res品質檔案頻譜圖

音質評價(二):音質好壞由什麼決定

SQ無損品質檔案頻譜圖

音質評價(二):音質好壞由什麼決定

HQ高品質檔案頻譜圖

音質評價(二):音質好壞由什麼決定

标準品質檔案頻譜圖

從頻譜圖可以看出來以下幾點:

  • 市面上不同音質壓縮情況不一樣,通常會把人耳不易識别的高頻部分給剪裁掉,
  • 不一定編碼指定的采樣率時候44.1kHz,實際音頻檔案就真的按這個來的,像是44.1kHz采樣率的mp3标準音質檔案,實際16.5kHz以上的都被裁剪掉了。

裁剪高頻的做法,必然帶來的就是高頻部分的缺失,對偏中低頻的檔案聽感差别或許不大,但是對偏高頻的檔案,金耳朵應該是可以聽出來的。

P.S. 梅爾刻度

梅爾刻度全稱為梅爾頻率倒譜系數(Mel-Frequency Cepstral Coefficients)。在 音質 一文中提到,人類的聽覺隻聚焦在特定的音頻範圍中,梅爾頻率就是基于人類聽覺感覺來的。具體而言,“梅爾刻度是一種基于人耳對等距的音高(pitch)變化的感官判斷而定的非線性頻率刻度”,和頻率赫茲的關系如下:m=2595*log10(1+f/700)

頻譜圖音頻細節

在細節上也是可以看出來,高壓縮率檔案是會丢失一部分細節的。

音質評價(二):音質好壞由什麼決定

不同檔案的編碼格式

音質評價(二):音質好壞由什麼決定

不同音質檔案頻譜圖對比

直接通過看頻譜圖的這些細節,肉眼可見幾個關鍵參數的實際差别,也就大緻可以判斷音質孰優孰劣了。

常用測試歌曲:

通常我們測試播放裝置如耳機的表現,會試播一些特定的歌曲,這些歌曲中包含了一定的特點,如蔡琴《渡口》富含低頻,可以測試低頻是否渾濁,其中蔡琴的聲音也可以用來測試人聲的表現,陳百強的《偏偏喜歡你》配樂中使用的弦樂與鋼琴配樂,可以測試在高頻上的表現。以下為常用于測試低中高頻的幾首曲目:

測試低頻可以用何訓田的《塵鼓》和蔡琴的《渡口》

測試中頻可以用Enya的《Amarantine》八隻眼的《達坂城的姑娘》

測試高頻可以用陳百強的《偏偏喜歡你》

音質評價(二):音質好壞由什麼決定

經典測試歌曲評論區

小結

最後做個小結,影響音質的因素太多了從生産到傳輸、存儲、播放各環節都有關,僅就音頻檔案本身而言,使用的采樣率、碼率、編碼方式、聲道數也都會影響實際效果。

采用合适的采樣率、碼率等參數,可以在不影響實際聽感的情況下有效降低成本。

最後也是最重要的,每個人的耳朵都不一樣,能不能聽出音質差别來真不好說,選擇市面上各家方案的時候沒有捷徑,一定要多試、多聽、多對比。

Hi-Res到底是何方神聖:

最後,會到文章封面圖,這個小金标!

音質評價(二):音質好壞由什麼決定

小金标

這個圖示估計大家多少都看到過,貼上這個圖示的裝置,多少都會沾上一個“貴”字。

Hi-Res是High Resolution Audio的縮寫,它是索尼在2014年提出的最新高品質音樂标準。它的音質表現遠遠超過現有壓縮音頻格式、CD,音頻格式的規格可高達192kHz / 24bit或者更高的解析度

依據CTA的定義:“Hi-Res高解析音頻是一種無損音頻,它在錄音上力求最大程度還原源聲,其音質表現高于CD音頻源。”