香農資訊量

如果是連續型随機變量的情況，設 p p p為随機變量 X X X的機率分布，即 p ( x ) p(x) p(x)為随機變量 X X X在 X = x X=x X=x處的機率密度函數值，則随機變量 X X X在 X = x X=x X=x處的香農資訊量定義為： − l o g 2 p ( x ) = l o g 2 1 p ( x ) -log_2p(x)=log_2\frac{1}{p(x)} −log2p(x)=log2p(x)1

這時香農資訊量的機關為比特。（如果非連續型随機變量，則為某一具體随機事件的機率，其他的同上）

香農資訊量用于刻畫消除随機變量在處的不确定性所需的資訊量的大小。

上面是香農資訊量的完整而嚴謹的表達，基本上讀完就隻剩下一個問題，為什麼是這個式子？為了友善了解我們先看一下香農資訊量在資料壓縮應用的一般流程。

假設我們有一段資料長下面這樣： a a B a a a V a a a a a aaBaaaVaaaaa aaBaaaVaaaaa

可以算出三個字母出現的機率分别為：

a : 10 12 ， B : 1 12 ， V : 1 12 a:\frac{10}{12}，B:\frac{1}{12}，V:\frac{1}{12} a:1210，B:121，V:121

香農資訊量為： a : 0.263 ， B : 3.585 ， V : 3.585 a:0.263，B:3.585，V:3.585 a:0.263，B:3.585，V:3.585

也就是說如果我們要用比特來表述這幾個字母，分别需要 0.263 ， 3.585 ， 3.585 0.263，3.585，3.585 0.263，3.585，3.585個這樣的比特。當然，由于比特是整數的，是以應該向上取整，變為 1 ， 4 ， 4 1，4，4 1，4，4個比特。

這個時候我們就可以按照這個指導對字母進行編碼，比如把 a a a編碼為" 0 0 0"，把 B B B編碼為" 1000 1000 1000"， V V V編碼為" 1001 1001 1001"，然後用編碼替換掉字母來完成壓縮編碼，資料壓縮結果為： 001000000100100000 001000000100100000 001000000100100000。

上面例子看起來有點不合理，因為如果我們去搞，我們會編碼出不一樣的東西，如 a a a編碼為" 0 0 0"， B B B編碼為" 10 10 10"， V V V編碼為" 11 11 11"，是以可以把資料壓縮的更小。那麼問題出現在哪呢？

出現在這裡的B和V這兩個字母隻用兩個比特進行編碼對于他們自身而言并不是充分的。在另外一個壓縮的例子中，可以一下子就看出來： a b B c d e V f h g i m abBcdeVfhgim abBcdeVfhgim

上面的每一個字母出現的機率都為 1 12 \frac{1}{12} 121，假設我們還是以兩個比特去編碼 B B B和 V V V，那麼就無法完全區分出12個字母。而如果是4個比特，便有16種可能性，可以足夠區分這12個字母。

現在回過頭來看香農資訊量的公式，它正是告訴我們，如果已經知道一個事件出現的機率，至少需要多少的比特數才能完整描繪這個事件（無論外部其他事件的機率怎麼變化），其中為底的2就是比特的兩種可能性，而因為二分是一個除的關系，是以自變量是機率分之一而不是機率本身。

感性的看，如果我們知道 a a a出現的機率為 5 6 \frac{5}{6} 65，那麼用比特中的"0"狀态來表述它是完全合理的，因為其他事件的機率總和隻有 1 6 \frac{1}{6} 61，但我們給這 1 6 \frac{1}{6} 61空出了比特的"1"這 1 2 \frac{1}{2} 21的空間來表達他們，是完全足夠的。

香農資訊量

繼續閱讀

凸二次規劃(convex quadratic programming)問題1、凸函數2、仿射函數3、凸優化問題4、凸二次規劃問題

機率密度随筆分布函數與機率密度為什麼使用機率密度邊緣機率密度條件機率密度

機器學習數學基礎之極限

【機器學習數學基礎-線性代數】1.2 矩陣

機器學習數學基礎之統計篇——機率論（python版）

機器學習數學基礎：線代（1）Linear Algebra

機器學習數學基礎之微分

高等數學---數列的極限前言極限參考書籍和視訊：

機器學習數學基礎之高數篇——函數極限和導數（python版）

強化學習的數學基礎2---PPO算法強化學習的數學基礎2—PPO系列算法

機率論第4記：二維随機變量