簡介

在很早以前的時候有學習過huffman編碼，憑借當年的一點學習的印象隻是知道它是一種有效的存儲和壓縮資料的方式。至于這種編碼背後的思路是什麼，它為什麼能帶來有效的編碼壓縮效果都沒有深究。這裡結合最近學習的一點感悟做一步的讨論。

Huffman編碼的引入

在詳細介紹huffman編碼之前，我們可以先考慮一個典型的字元編碼和存儲的場景。假定有一個含有100000個字元的檔案，它裡有很多個字元。我們經過統計之後發現出現的字元主要有6個，分别為a, b, c, d, e, f。他們出現的頻率如下表所示：

a	b	c	d	e	f
出現頻率	45000	13000	12000	16000	9000	5000
編碼	000	001	010	011	100	101

因為我們知道一個字元存儲需要兩個位元組，而我們這裡需要對字元進行壓縮，是以希望能用盡可能少的位元組來表示他們。而為了盡可能簡潔的來表達這些字元，對于這6個元素來說，我們可以采用3個位來表示他們。是以這裡a到f分别用000到101表示。如前面表所示。按照這種做法，我們發現這種編碼方式生成的檔案占用空間大小為100000 * 3 bit = 300000bit。和前面100000 * 2byte = 200000 byte比起來，确實有比較大的壓縮效果改進。

改進

前面的編碼方式看起來已經有了不小的進步。我們還有沒有改進的空間呢？我們來看前面選擇編碼的思路。因為我們總共有6個字元，如果用2進制來表示的話，至少要3個位，是以就采用了3個。這裡考慮僅僅是有多少個字元要表示。這是一個方面。可是，我們忽略了另外一個方面。在檔案裡，每個字元有它出現的頻率，比如a出現的頻率最高，f出現的頻率最低。有沒有可能我們讓出現頻率越高的字元盡量短，而出現頻率低的字元可以稍微長一點呢？比如前面的示例中，我們是所有字元的長度都是平均的3位，如果我們對于頻率最高的那個字元直接用一個位來描述，這樣豈不是更省空間？比如前面字元a出現了45000次，如果我們隻是用一個位來表示它的話，則省下了90000個位。當然，對于這一步來說它确實是省到了。如果按照這個思路來，我們後續的字元該怎麼編碼呢？我們需要用沒有歧義的編碼來表示這些字元。而前面第一種方法所能表示的極限就是3個位。如果這裡我們直接就用去了一個位，要表示後面5個元素，會不會導緻某些元素要使用更多的位呢？

其實，這就是huffman裡面采取的一個政策。我們充分利用統計的結果，将頻率高的字元編碼盡可能設的短，而頻率低的設的稍微長一些。因為頻率高的帶來的空間節約比頻率低帶來的空間消耗要多，是以能夠實作更進一步的空間壓縮。比如說，我們在前面的問題裡，假定有3個字元要編碼。按照我們剛才的情況，a已經占用了字元0,而另外兩個字元隻能是10, 11了。他們的編碼情況如下圖：