本文内容參考 機器學習相關的機率論和資訊論基礎知識
機率論 是很多機器學習的算法的構模組化型的基礎,資訊論 可以描述随機事件的資訊量也可以計算兩種機率分布的差異。
@機器學習有關的機率論和資訊論基礎
機率論
機率;随機事件;随機變量;
1.某次試驗具有偶然性;相同條件下的大量重複實驗具有規律性。
2.一個随機試驗的可能結果(稱為基本事件)的全體組成一個基本空間Ω。
随機變量X是定義在基本空間Ω上的取值為實數的函數,即基本空間Ω中每一個點,也就是每個基本事件都有實軸上的點與之對應。
機率品質函數;機率密度函數;
1.離散随機變量用用機率品質函數(PMF, probability mass function)(通常表示為P)定義其機率分布。P(X=x1)
2.随機變量能夠在一個間隔中取任意值,機率密度函數(PDF,probability density function)(通常指定為p來指定其機率分布)。該區間内任何特定點的機率為0。我們通過p(x)和無限小體積δx 的乘積 p(x)δx作為機率。
機率分布函數;聯合分布、邊緣分布和條件分布
1.分布函數(CDF, Cumulative Distribution Function): F(X)=P(X<x)(−∞<x<+∞) 。分布函數可以完整地描述随機變量的統計規律,并且決定随機變量的一切其他機率特征。
2.聯合機率分布(joint probability distribution):同時在多個随機變量上的機率分布。P(X=x,Y=y),P(x,y);
3.邊緣機率分布(marginal probability distribution):給定聯合機率分布,随機變量子集上的機率分布。
P(x)=∑y P(x,y) p(x)=∫y p(x,y)dy
4.條件機率(conditional probability):已發生其他事件的情況下計算事件的機率。P(y|x)=P(x,y)/P(x)
全機率公式;機率乘法定理;獨立;條件獨立;貝葉斯公式
1.全機率公式:完備事件 A
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnL4ITOyIzN1EjM1ITNwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
2.機率乘法定理(multiplication theorem of probability):聯合狀态與目前狀态,以及曆史狀态有關,馬爾可夫記憶鍊。
3.獨立:P(A)×P(B)=P(AB)
4.條件獨立:P(X,Y|Z)=P(X|Z)P(Y|Z) 或P(X|Y,Z)=P(X|Z)
5.貝葉斯公式:P(A|B)=P(B|A)P(A)/P(B)
期望;方差;協方差
1.數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的機率乘以其結果的總和。機率權重平均。機率的一階矩。
離散變量:Ex∼P[f(x)]=∑x P(x)f(x) 連續變量:Ex∼P[f(x)]=∫ p(x)f(x)dx
線性性質:Ex [af(x)+bg(x)]=aEx [f(x)]+bEx [g(x)]
2.方差:用來度量随機變量和其數學期望(即均值)之間的偏離程度。(波動性)标準差為方差的平方根。機率的二階矩。
3.協方差(Covariance):衡量兩個變量的總體誤差。
Pearson相關系數;大數定律(切比雪夫;伯努利;新欽大數定律;中心極限定理(獨立同分布的中心極限;棣莫佛-拉普拉斯定理;不同分布的中心極限);最大似然估計
1.Pearson相關系數(Pearson correlation coefficient):是用來衡量兩個資料集合是否在一條線上面,用來衡量定距變量間的線性關系。
2.大數定律(law of large numbers):試驗次數很大時所呈現的機率性質的定律,不為經驗規律,在附加條件上嚴格證明了的定理。
1)切比雪夫
結論:随着樣本容量n的增加,樣本平均數将接近于總體平均數。(可以依據樣本平均數估計總體平均數)
注意:并未要求X1,X2,…,Xn同分布,相較于伯努利大數定律和辛欽大數定律更具一般性。
2)伯努利(頻率穩定性)
含義:事件A出現的頻率将幾乎接近于其發生的機率,即頻率的穩定性。(抽樣調查中用樣本成數去估計總體成數)
3)新欽大數
含義:用算數平均值來近似真值是合理的。
3.中心極限定理(大量随機變量近似分布正态分布)
中心極限定理指出:一些現象受到許多互相獨立的随機因素的影響,如果每個因素所産生的影響都很微小時,總的影響可以看作是服從正态分布的。
1)獨立同分布的中心極限:
2)棣莫佛-拉普拉斯定理:
含義:正态分布是二項分布的極限分布。
3)不同分布的中心極限
定理說明:随機變量如果是有大量獨立的而且均勻的随機變量相加而成,那麼它的分布将近似于正态分布。
4.最大似然估計
最大似然法明确地使用機率模型,其目标是尋找能夠以較高機率産生觀察資料的系統發生樹。
機率分布
機率分布,是指用于表述随機變量取值的機率規律。随機變量的可能取值及取得對應值的機率。
伯努利分布;二項分布;
1.伯努利分布:最簡單的機率分布,單個二進制随機變量上的離散分布 。P(x=1)=ϕ ,P(x=0)=1−ϕ。
2.二項分布:n個獨立的伯努利分布;
正态分布(一維正态分布;标準正态分布)
正态分布(Normal distribution),也稱“常态分布”,又名高斯分布(Gaussian distribution)
1.一維正态分布:
2.标準正态分布:μ=0,σ=1
經驗分布/資料生成分布
經驗分布(empirical distribution)或資料生成分布(data generating distribution)近似想要學習的真實基礎分布。
1.資料離散,每個資料點的機率為訓練過程中的頻率。
2.資料連續,引入沖激函數:
資訊論
子資訊/資訊量
自資訊(Self-information),又稱資訊量,資訊含量的多少。
I(x)=−logP(x);
底為2,那麼資訊量的機關是bit;如果底為e,那麼資訊量的機關是nats。
香農熵/資訊熵
**香農熵,又稱資訊熵,**表示來自機率分布P的所有事件x含有的資訊量的期望值,香農熵有效地衡量了機率分布中包含的不确定性。
相對熵/KL散度(熵的概念擴充到兩個分布)
相對熵,又被稱為KL散度(Kullback-Leibler divergence)或資訊增益,是兩個機率分布間差異的非對稱性度量。等價于兩個機率分布的資訊熵內插補點:
JS散度
JS散度(Jensen-Shannon divergence):度量兩個機率分布的差異性。
交叉熵
也是衡量機率分布差異的手段,機率分布P和Q的交叉熵等于機率分布P的熵與機率分布P和Q的散度。
逐點互相資訊(點向互資訊)
點向互資訊(PMI,Pointwise mutual information):
互資訊(MI)是PMI的期望值:
互資訊矩陣MI來表征學習出的表示(learned representations)和輸出标簽(output labels)之間的關聯。
共轭先驗分布
在貝葉斯統計中,如果後驗分布與先驗分布屬于同類,則先驗分布與後驗分布被稱為共轭分布,而先驗分布被稱為似然函數的共轭先驗。
本質:給定貝葉斯公式,一直似然函數,如何選取先驗分布,使得後驗分布與先驗分布具有相同的數學形式。
優點:代數上的友善性,可以直接給出後驗分布的封閉形式。
所有指數家族分布都具有共轭先驗。