機器學習需要深厚的數學基礎,矩陣、統計、優化,這些都是基本功。勿在浮沙築高台!是以在本文中将總結學習統計基礎知識,夯實基礎!
正态分布在機器學習中有着重要的應用,在數學上有這樣一個結論:根據中心極限定理,多個随機變量之和服從正态分布。根據這個結論,在誤差分析時,
可以認為所産生的誤差是多個獨立同分布誤差的疊加,是以最終的誤差服從正态分布。
單變量正态分布
N(x|μ,σ2)=1(2πσ2)12exp{?12(x?μ)2}
其中,E(x)=μ,
var(x)=σ2.
多變量正态分布
N(X|μ,Σ)=1(2π)D21|Σ|12exp{?12(X?μ)TΣ?1(X?μ)}
其中,E(X)=μ,
var(X)=Σ,Σ是n階對稱正定矩陣。
而Σ是對稱矩陣,是以存在正交矩陣T(T′=T?1),使得T′ΣT=Λ,
其中Λ是對角陣,其對角線上的元素λ1,λ2,...,λn是Σ的特征根。因為Σ是正定的,故λ1,λ2,...,λn都是正的。
高斯條件分布
對于聯合分布N(X|μ,Σ),
Λ=Σ?1,其中
X=(xaxb),μ=(μaμb)
Σ=(ΣaaΣbaΣabΣbb),Λ=(ΛaaΛbaΛabΛbb)
則條件分布的機率為
p(Xa|Xb)=N(X|μa|b,Λ?1aa)
μa|b=μa?Λ?1aaΛab(Xb?Xa)
邊際分布的機率為
p(Xa)=N(Xa|μa,Σaa)
若X服從N(μ,Σ),則Y=AX+b服從N(Aμ+b,AΣA′)
混合高斯分布
高斯分布是一個單峰模型,其對于多峰模型的描述顯然是不夠的,是以引入了混合高斯分布,即多個高斯分布的凸組合
p(x)=Σk=1KπkN(x|μk,Σk)
其中,Σk=1Kπk=1,0≤πk≤1
Γ函數
是階乘在實數和複數上的擴充
Γ(t)=∫∞0xt?1e?xdx
當t為正整數時
Γ(t)=(t?1)!
Γ函數性質
Γ(t+1)=tΓ(t)
Γ(1)=1
Γ(12)=π√
Γ分布密度函數
f(x)=λαxα?1Γ(α)e?λx
稱x服從參數為α,λ的Γ分布,記為x Γ(α,λ)
Γ分布性質
Gamma分布中的參數α稱為形狀參數(shape
parameter),λ稱為尺度參數(scale
parameter)。在實驗中,它模拟假設随機變量X為 等到第α件事發生所需之等候時間,α,λ是兩個分布調整參量。
E(x)=αλ
σ2(x)=αλ2
Beta函數
B(p,q)=Γ(p)Γ(q)Γ(p+q)=∫10xp?1(1?x)q?1dx
Beta分布密度函數
Beta(μ|p,q)=Γ(p+q)Γ(p)Γ(q)μp?1(1?μ)q?1=1B(p,q)μp?1(1?μ)q?1
其均值和方差如下所示:
E(μ)=pp+q
var(μ)=pq(p+q)2(p+q+1)
Beta分布是區間[0,1]上的單峰分布,是以可以在某些情況下對資料進行很好的描述。比如,其可作為伯努利分布的貝葉斯參數估計時的先驗分布。
定義
Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αk)∏k=1Kμαk?1k
其中α0=Σk=1Kαk
Beta分布與Dirichlet分布的關系
Beta分布對應二項分布,Dirichlet對應多項分布
Beta分布是Dirichlet分布的特例
若x的機率密度可以表示為
p(x|η)=h(x)g(η)exp{ηTu(x)}
則稱此分布為指數族分布。其中,η稱為自然參數,u(x)是x的函數,g(η)可以看作是歸一化機率密度的參數,即
g(η)∫h(x)exp{ηTu(x)}=1
執行個體
二項分布、多項分布、指數分布、Gamma分布等