機器學習有關的機率論與資訊論基本知識

本文内容參考機器學習相關的機率論和資訊論基礎知識

機率論是很多機器學習的算法的構模組化型的基礎，資訊論可以描述随機事件的資訊量也可以計算兩種機率分布的差異。

@機器學習有關的機率論和資訊論基礎

機率論

機率；随機事件；随機變量；

1.某次試驗具有偶然性；相同條件下的大量重複實驗具有規律性。

2.一個随機試驗的可能結果（稱為基本事件）的全體組成一個基本空間Ω。

随機變量X是定義在基本空間Ω上的取值為實數的函數，即基本空間Ω中每一個點，也就是每個基本事件都有實軸上的點與之對應。

機率品質函數；機率密度函數；

1.離散随機變量用用機率品質函數（PMF, probability mass function）（通常表示為P）定義其機率分布。P(X=x1)

2.随機變量能夠在一個間隔中取任意值，機率密度函數（PDF，probability density function）（通常指定為p來指定其機率分布）。該區間内任何特定點的機率為0。我們通過p(x)和無限小體積δx 的乘積 p(x)δx作為機率。

機率分布函數；聯合分布、邊緣分布和條件分布

1.分布函數（CDF， Cumulative Distribution Function）： F(X)=P(X<x)(−∞<x<+∞) 。分布函數可以完整地描述随機變量的統計規律，并且決定随機變量的一切其他機率特征。

2.聯合機率分布（joint probability distribution）：同時在多個随機變量上的機率分布。P(X=x，Y=y)，P(x,y)；

3.邊緣機率分布（marginal probability distribution）：給定聯合機率分布，随機變量子集上的機率分布。

P(x)=∑y P(x,y) p(x)=∫y p(x,y)dy

4.條件機率（conditional probability）：已發生其他事件的情況下計算事件的機率。P(y|x)=P(x,y)/P(x)

全機率公式；機率乘法定理；獨立；條件獨立；貝葉斯公式

1.全機率公式：完備事件 A

機器學習有關的機率論與資訊論基本知識

2.機率乘法定理(multiplication theorem of probability)：聯合狀态與目前狀态，以及曆史狀态有關，馬爾可夫記憶鍊。

機器學習有關的機率論與資訊論基本知識

3.獨立：P(A)×P(B)=P(AB)

4.條件獨立：P(X,Y|Z)=P(X|Z)P(Y|Z) 或P(X|Y,Z)=P(X|Z)

5.貝葉斯公式：P(A|B)=P(B|A)P(A)/P(B)

期望；方差；協方差

1.數學期望(mean)（或均值，亦簡稱期望）是試驗中每次可能結果的機率乘以其結果的總和。機率權重平均。機率的一階矩。

離散變量：Ex∼P[f(x)]=∑x P(x)f(x) 連續變量：Ex∼P[f(x)]=∫ p(x)f(x)dx

線性性質：Ex [af(x)+bg(x)]=aEx [f(x)]+bEx [g(x)]

2.方差：用來度量随機變量和其數學期望（即均值）之間的偏離程度。（波動性）标準差為方差的平方根。機率的二階矩。

機器學習有關的機率論與資訊論基本知識

3.協方差（Covariance）：衡量兩個變量的總體誤差。

機器學習有關的機率論與資訊論基本知識

Pearson相關系數；大數定律（切比雪夫；伯努利；新欽大數定律；中心極限定理（獨立同分布的中心極限；棣莫佛-拉普拉斯定理；不同分布的中心極限）；最大似然估計

1.Pearson相關系數（Pearson correlation coeﬃcient）:是用來衡量兩個資料集合是否在一條線上面，用來衡量定距變量間的線性關系。

機器學習有關的機率論與資訊論基本知識

2.大數定律(law of large numbers)：試驗次數很大時所呈現的機率性質的定律，不為經驗規律，在附加條件上嚴格證明了的定理。

1）切比雪夫

機器學習有關的機率論與資訊論基本知識

結論：随着樣本容量n的增加，樣本平均數将接近于總體平均數。（可以依據樣本平均數估計總體平均數）

注意：并未要求X1,X2,…,Xn同分布，相較于伯努利大數定律和辛欽大數定律更具一般性。

2）伯努利（頻率穩定性）

機器學習有關的機率論與資訊論基本知識

含義：事件A出現的頻率将幾乎接近于其發生的機率，即頻率的穩定性。（抽樣調查中用樣本成數去估計總體成數）

3）新欽大數

機器學習有關的機率論與資訊論基本知識

含義：用算數平均值來近似真值是合理的。

3.中心極限定理（大量随機變量近似分布正态分布）

中心極限定理指出：一些現象受到許多互相獨立的随機因素的影響，如果每個因素所産生的影響都很微小時，總的影響可以看作是服從正态分布的。

1）獨立同分布的中心極限：

機器學習有關的機率論與資訊論基本知識

2）棣莫佛-拉普拉斯定理：

機器學習有關的機率論與資訊論基本知識

含義：正态分布是二項分布的極限分布。

3）不同分布的中心極限

定理說明：随機變量如果是有大量獨立的而且均勻的随機變量相加而成，那麼它的分布将近似于正态分布。

4.最大似然估計

最大似然法明确地使用機率模型，其目标是尋找能夠以較高機率産生觀察資料的系統發生樹。

機率分布

機率分布，是指用于表述随機變量取值的機率規律。随機變量的可能取值及取得對應值的機率。

伯努利分布；二項分布；

1.伯努利分布：最簡單的機率分布，單個二進制随機變量上的離散分布。P(x=1)=ϕ ，P(x=0)=1−ϕ。

機器學習有關的機率論與資訊論基本知識

2.二項分布：n個獨立的伯努利分布；

正态分布（一維正态分布；标準正态分布)

正态分布（Normal distribution），也稱“常态分布”，又名高斯分布（Gaussian distribution）

1.一維正态分布：

機器學習有關的機率論與資訊論基本知識

2.标準正态分布：μ=0,σ=1

機器學習有關的機率論與資訊論基本知識

經驗分布/資料生成分布

經驗分布（empirical distribution）或資料生成分布（data generating distribution）近似想要學習的真實基礎分布。

1.資料離散，每個資料點的機率為訓練過程中的頻率。

機器學習有關的機率論與資訊論基本知識

2.資料連續，引入沖激函數：

機器學習有關的機率論與資訊論基本知識

資訊論

子資訊/資訊量

自資訊（Self-information），又稱資訊量，資訊含量的多少。

I(x)=−logP(x)；

底為2，那麼資訊量的機關是bit；如果底為e，那麼資訊量的機關是nats。

香農熵/資訊熵

**香農熵，又稱資訊熵，**表示來自機率分布P的所有事件x含有的資訊量的期望值，香農熵有效地衡量了機率分布中包含的不确定性。

機器學習有關的機率論與資訊論基本知識

相對熵/KL散度(熵的概念擴充到兩個分布）

相對熵，又被稱為KL散度（Kullback-Leibler divergence）或資訊增益，是兩個機率分布間差異的非對稱性度量。等價于兩個機率分布的資訊熵內插補點：

機器學習有關的機率論與資訊論基本知識

JS散度

JS散度（Jensen-Shannon divergence）：度量兩個機率分布的差異性。

機器學習有關的機率論與資訊論基本知識

交叉熵

也是衡量機率分布差異的手段，機率分布P和Q的交叉熵等于機率分布P的熵與機率分布P和Q的散度。

機器學習有關的機率論與資訊論基本知識

逐點互相資訊（點向互資訊）

點向互資訊（PMI，Pointwise mutual information）：

機器學習有關的機率論與資訊論基本知識

互資訊（MI）是PMI的期望值：

機器學習有關的機率論與資訊論基本知識

互資訊矩陣MI來表征學習出的表示（learned representations）和輸出标簽（output labels）之間的關聯。

共轭先驗分布

在貝葉斯統計中，如果後驗分布與先驗分布屬于同類，則先驗分布與後驗分布被稱為共轭分布，而先驗分布被稱為似然函數的共轭先驗。

本質：給定貝葉斯公式，一直似然函數，如何選取先驗分布，使得後驗分布與先驗分布具有相同的數學形式。

優點：代數上的友善性，可以直接給出後驗分布的封閉形式。

所有指數家族分布都具有共轭先驗。

機器學習有關的機率論與資訊論基本知識

機率論

機率；随機事件；随機變量；

機率品質函數；機率密度函數；

機率分布函數；聯合分布、邊緣分布和條件分布

全機率公式；機率乘法定理；獨立；條件獨立；貝葉斯公式

期望；方差；協方差

Pearson相關系數；大數定律（切比雪夫；伯努利；新欽大數定律；中心極限定理（獨立同分布的中心極限；棣莫佛-拉普拉斯定理；不同分布的中心極限）；最大似然估計

機率分布

伯努利分布；二項分布；

正态分布（一維正态分布；标準正态分布)

經驗分布/資料生成分布

資訊論

子資訊/資訊量

香農熵/資訊熵

相對熵/KL散度(熵的概念擴充到兩個分布）

JS散度

交叉熵

逐點互相資訊（點向互資訊）

共轭先驗分布

繼續閱讀

機器之心選出2015年人工智能五大關鍵詞

合并結果集 | 學習筆記

深度學習學習筆記——keras模型儲存與讀取

深度學習學習筆記——各種concatenate

深度學習學習筆記——随手寫

深度學習學習筆記——keras中的verbose

吳恩達-深度學習筆記《卷積神經網絡》

深度學習論文彙總（2018.6.25更新）深度學習的基礎深度學習爆發：從AlexNet到Capsules深度學習中非常有用的Tricks 遞歸神經網絡RNN 生成對抗網絡GAN 遷移學習目标檢測語義分割圖像壓縮關鍵點/姿态檢測ReID引用連結

深度學習學習筆記——1x1卷積核作用

利用numpy實作Logistic回歸模型——總結（2）内容總結：問題：通過Logistic回歸模型識别貓

【學習筆記4】Convolutional Pose Mashines在FashionAI中的應用【第二彈】——我的深度學習首秀（天池FashionAI關鍵點挑戰賽複賽篇）

【學習筆記3】Convolutional Pose Mashines在FashionAI中的應用——我的深度學習首秀

深度學習學習筆記——model.fit與model.fit_generator

keras模型h5檔案轉pb檔案（通過save_model儲存的h5模型檔案）

飛槳paddlepaddle深度學習實戰——學習筆記（第三章飛槳實踐）第三章學習筆記