天天看點

機器學習有關的機率論與資訊論基本知識

本文内容參考 機器學習相關的機率論和資訊論基礎知識

機率論 是很多機器學習的算法的構模組化型的基礎,資訊論 可以描述随機事件的資訊量也可以計算兩種機率分布的差異。

@機器學習有關的機率論和資訊論基礎

機率論

機率;随機事件;随機變量;

1.某次試驗具有偶然性;相同條件下的大量重複實驗具有規律性。

2.一個随機試驗的可能結果(稱為基本事件)的全體組成一個基本空間Ω。

随機變量X是定義在基本空間Ω上的取值為實數的函數,即基本空間Ω中每一個點,也就是每個基本事件都有實軸上的點與之對應。

機率品質函數;機率密度函數;

1.離散随機變量用用機率品質函數(PMF, probability mass function)(通常表示為P)定義其機率分布。P(X=x1)

2.随機變量能夠在一個間隔中取任意值,機率密度函數(PDF,probability density function)(通常指定為p來指定其機率分布)。該區間内任何特定點的機率為0。我們通過p(x)和無限小體積δx 的乘積 p(x)δx作為機率。

機率分布函數;聯合分布、邊緣分布和條件分布

1.分布函數(CDF, Cumulative Distribution Function): F(X)=P(X<x)(−∞<x<+∞) 。分布函數可以完整地描述随機變量的統計規律,并且決定随機變量的一切其他機率特征。

2.聯合機率分布(joint probability distribution):同時在多個随機變量上的機率分布。P(X=x,Y=y),P(x,y);

3.邊緣機率分布(marginal probability distribution):給定聯合機率分布,随機變量子集上的機率分布。

P(x)=∑y P(x,y) p(x)=∫y p(x,y)dy

4.條件機率(conditional probability):已發生其他事件的情況下計算事件的機率。P(y|x)=P(x,y)/P(x)

全機率公式;機率乘法定理;獨立;條件獨立;貝葉斯公式

1.全機率公式:完備事件 A

機器學習有關的機率論與資訊論基本知識

2.機率乘法定理(multiplication theorem of probability):聯合狀态與目前狀态,以及曆史狀态有關,馬爾可夫記憶鍊。

機器學習有關的機率論與資訊論基本知識

3.獨立:P(A)×P(B)=P(AB)

4.條件獨立:P(X,Y|Z)=P(X|Z)P(Y|Z) 或P(X|Y,Z)=P(X|Z)

5.貝葉斯公式:P(A|B)=P(B|A)P(A)/P(B)

期望;方差;協方差

1.數學期望(mean)(或均值,亦簡稱期望)是試驗中每次可能結果的機率乘以其結果的總和。機率權重平均。機率的一階矩。

離散變量:Ex∼P[f(x)]=∑x P(x)f(x) 連續變量:Ex∼P[f(x)]=∫ p(x)f(x)dx

線性性質:Ex [af(x)+bg(x)]=aEx [f(x)]+bEx [g(x)]

2.方差:用來度量随機變量和其數學期望(即均值)之間的偏離程度。(波動性)标準差為方差的平方根。機率的二階矩。

機器學習有關的機率論與資訊論基本知識
機器學習有關的機率論與資訊論基本知識

3.協方差(Covariance):衡量兩個變量的總體誤差。

機器學習有關的機率論與資訊論基本知識

Pearson相關系數;大數定律(切比雪夫;伯努利;新欽大數定律;中心極限定理(獨立同分布的中心極限;棣莫佛-拉普拉斯定理;不同分布的中心極限);最大似然估計

1.Pearson相關系數(Pearson correlation coefficient):是用來衡量兩個資料集合是否在一條線上面,用來衡量定距變量間的線性關系。

機器學習有關的機率論與資訊論基本知識

2.大數定律(law of large numbers):試驗次數很大時所呈現的機率性質的定律,不為經驗規律,在附加條件上嚴格證明了的定理。

1)切比雪夫

機器學習有關的機率論與資訊論基本知識

結論:随着樣本容量n的增加,樣本平均數将接近于總體平均數。(可以依據樣本平均數估計總體平均數)

注意:并未要求X1,X2,…,Xn同分布,相較于伯努利大數定律和辛欽大數定律更具一般性。

2)伯努利(頻率穩定性)

機器學習有關的機率論與資訊論基本知識

含義:事件A出現的頻率将幾乎接近于其發生的機率,即頻率的穩定性。(抽樣調查中用樣本成數去估計總體成數)

3)新欽大數

機器學習有關的機率論與資訊論基本知識

含義:用算數平均值來近似真值是合理的。

3.中心極限定理(大量随機變量近似分布正态分布)

中心極限定理指出:一些現象受到許多互相獨立的随機因素的影響,如果每個因素所産生的影響都很微小時,總的影響可以看作是服從正态分布的。

1)獨立同分布的中心極限:

機器學習有關的機率論與資訊論基本知識

2)棣莫佛-拉普拉斯定理:

機器學習有關的機率論與資訊論基本知識

含義:正态分布是二項分布的極限分布。

3)不同分布的中心極限

定理說明:随機變量如果是有大量獨立的而且均勻的随機變量相加而成,那麼它的分布将近似于正态分布。

4.最大似然估計

最大似然法明确地使用機率模型,其目标是尋找能夠以較高機率産生觀察資料的系統發生樹。

機率分布

機率分布,是指用于表述随機變量取值的機率規律。随機變量的可能取值及取得對應值的機率。

伯努利分布;二項分布;

1.伯努利分布:最簡單的機率分布,單個二進制随機變量上的離散分布 。P(x=1)=ϕ ,P(x=0)=1−ϕ。

機器學習有關的機率論與資訊論基本知識

2.二項分布:n個獨立的伯努利分布;

正态分布(一維正态分布;标準正态分布)

正态分布(Normal distribution),也稱“常态分布”,又名高斯分布(Gaussian distribution)

1.一維正态分布:

機器學習有關的機率論與資訊論基本知識

2.标準正态分布:μ=0,σ=1

機器學習有關的機率論與資訊論基本知識

經驗分布/資料生成分布

經驗分布(empirical distribution)或資料生成分布(data generating distribution)近似想要學習的真實基礎分布。

1.資料離散,每個資料點的機率為訓練過程中的頻率。

機器學習有關的機率論與資訊論基本知識

2.資料連續,引入沖激函數:

機器學習有關的機率論與資訊論基本知識

資訊論

子資訊/資訊量

自資訊(Self-information),又稱資訊量,資訊含量的多少。

I(x)=−logP(x);

底為2,那麼資訊量的機關是bit;如果底為e,那麼資訊量的機關是nats。

香農熵/資訊熵

**香農熵,又稱資訊熵,**表示來自機率分布P的所有事件x含有的資訊量的期望值,香農熵有效地衡量了機率分布中包含的不确定性。

機器學習有關的機率論與資訊論基本知識

相對熵/KL散度(熵的概念擴充到兩個分布)

相對熵,又被稱為KL散度(Kullback-Leibler divergence)或資訊增益,是兩個機率分布間差異的非對稱性度量。等價于兩個機率分布的資訊熵內插補點:

機器學習有關的機率論與資訊論基本知識

JS散度

JS散度(Jensen-Shannon divergence):度量兩個機率分布的差異性。

機器學習有關的機率論與資訊論基本知識

交叉熵

也是衡量機率分布差異的手段,機率分布P和Q的交叉熵等于機率分布P的熵與機率分布P和Q的散度。

機器學習有關的機率論與資訊論基本知識

逐點互相資訊(點向互資訊)

點向互資訊(PMI,Pointwise mutual information):

機器學習有關的機率論與資訊論基本知識

互資訊(MI)是PMI的期望值:

機器學習有關的機率論與資訊論基本知識

互資訊矩陣MI來表征學習出的表示(learned representations)和輸出标簽(output labels)之間的關聯。

共轭先驗分布

在貝葉斯統計中,如果後驗分布與先驗分布屬于同類,則先驗分布與後驗分布被稱為共轭分布,而先驗分布被稱為似然函數的共轭先驗。

本質:給定貝葉斯公式,一直似然函數,如何選取先驗分布,使得後驗分布與先驗分布具有相同的數學形式。

優點:代數上的友善性,可以直接給出後驗分布的封閉形式。

所有指數家族分布都具有共轭先驗。

繼續閱讀