天天看點

統計基礎 統計基礎

機器學習需要深厚的數學基礎,矩陣、統計、優化,這些都是基本功。勿在浮沙築高台!是以在本文中将總結學習統計基礎知識,夯實基礎!

正态分布在機器學習中有着重要的應用,在數學上有這樣一個結論:根據中心極限定理,多個随機變量之和服從正态分布。根據這個結論,在誤差分析時,

可以認為所産生的誤差是多個獨立同分布誤差的疊加,是以最終的誤差服從正态分布。

單變量正态分布

N(x|μ,σ2)=1(2πσ2)12exp{?12(x?μ)2}

其中,E(x)=μ,

var(x)=σ2.

多變量正态分布

N(X|μ,Σ)=1(2π)D21|Σ|12exp{?12(X?μ)TΣ?1(X?μ)}

其中,E(X)=μ,

var(X)=Σ,Σ是n階對稱正定矩陣。

而Σ是對稱矩陣,是以存在正交矩陣T(T′=T?1),使得T′ΣT=Λ,

其中Λ是對角陣,其對角線上的元素λ1,λ2,...,λn是Σ的特征根。因為Σ是正定的,故λ1,λ2,...,λn都是正的。

高斯條件分布

對于聯合分布N(X|μ,Σ),

Λ=Σ?1,其中

X=(xaxb),μ=(μaμb)

Σ=(ΣaaΣbaΣabΣbb),Λ=(ΛaaΛbaΛabΛbb)

則條件分布的機率為

p(Xa|Xb)=N(X|μa|b,Λ?1aa)

μa|b=μa?Λ?1aaΛab(Xb?Xa)

邊際分布的機率為

p(Xa)=N(Xa|μa,Σaa)

若X服從N(μ,Σ),則Y=AX+b服從N(Aμ+b,AΣA′)

混合高斯分布

高斯分布是一個單峰模型,其對于多峰模型的描述顯然是不夠的,是以引入了混合高斯分布,即多個高斯分布的凸組合

p(x)=Σk=1KπkN(x|μk,Σk)

其中,Σk=1Kπk=1,0≤πk≤1

Γ函數

是階乘在實數和複數上的擴充

Γ(t)=∫∞0xt?1e?xdx

當t為正整數時

Γ(t)=(t?1)!

Γ函數性質

Γ(t+1)=tΓ(t)

Γ(1)=1

Γ(12)=π√

Γ分布密度函數

f(x)=λαxα?1Γ(α)e?λx

稱x服從參數為α,λ的Γ分布,記為x Γ(α,λ)

Γ分布性質

Gamma分布中的參數α稱為形狀參數(shape

parameter),λ稱為尺度參數(scale

parameter)。在實驗中,它模拟假設随機變量X為 等到第α件事發生所需之等候時間,α,λ是兩個分布調整參量。

E(x)=αλ

σ2(x)=αλ2

Beta函數

B(p,q)=Γ(p)Γ(q)Γ(p+q)=∫10xp?1(1?x)q?1dx

Beta分布密度函數

Beta(μ|p,q)=Γ(p+q)Γ(p)Γ(q)μp?1(1?μ)q?1=1B(p,q)μp?1(1?μ)q?1

其均值和方差如下所示:

E(μ)=pp+q

var(μ)=pq(p+q)2(p+q+1)

Beta分布是區間[0,1]上的單峰分布,是以可以在某些情況下對資料進行很好的描述。比如,其可作為伯努利分布的貝葉斯參數估計時的先驗分布。

定義

Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αk)∏k=1Kμαk?1k

其中α0=Σk=1Kαk

Beta分布與Dirichlet分布的關系

Beta分布對應二項分布,Dirichlet對應多項分布

Beta分布是Dirichlet分布的特例

若x的機率密度可以表示為

p(x|η)=h(x)g(η)exp{ηTu(x)}

則稱此分布為指數族分布。其中,η稱為自然參數,u(x)是x的函數,g(η)可以看作是歸一化機率密度的參數,即

g(η)∫h(x)exp{ηTu(x)}=1

執行個體

二項分布、多項分布、指數分布、Gamma分布等