1 高斯分布
對于⼀元實值變量x,⾼斯分布被定義為:
它由兩個參數控制:µ,被叫做均值(mean),以及σ2,被叫做方(variance)。⽅差的平⽅根,由σ給定,被叫做标準差(standard deviation)。⽅差的倒數,記作β =1/σ2,被叫做精度(precision)。我們稍後将看到這些項的意義。高斯分布的圖像如下:
很容易證明⾼斯分布是歸⼀化的,是以:
我們已經能夠找到關于x的函數在⾼斯分布下的期望。特别地,x的平均值為:
于參數µ表⽰在分布下的x的平均值,它通常被叫做均值。類似地,⼆階矩為:
x的⽅差被定義為:
var[x] = E[x2] − E[x]= σ
是以σ2也被叫做方差參數。分布的最大值被叫做衆數。對于高斯分布,衆數與均值恰好相等。我們也對D維向量x的⾼斯分布也感興趣,定義為:
圖: 高斯機率分布的似然函數,由紅色曲線表⽰。這⾥,黑點表示資料集{xn}的值,公式給出的似然函數對應于藍色值的乘積。最⼤化似然函數涉及到調節高斯分布的均值和方差,使得這個乘積最大。
其中D維向量µ被稱為均值,D × D的矩陣Σ被稱為協⽅差,|Σ|表⽰Σ的行列式。
現在假定我們有⼀個觀測的資料集x = (x1,…,xN)T,表⽰标量變量x的N次觀測。注意,我們使⽤了⼀個字型不同的x來和向量變量(x1,…,xD)T作區分,後者記作x。我們假定各次觀測是獨⽴地從⾼斯分布中抽取的,分布的均值µ和方差σ2未知,我們想根據資料集來确定這些參數。獨⽴地從相同的資料點中抽取的資料點被稱為獨立同分布(independent and identicallydistributed),通常縮寫成i.i.d.。我們已經看到兩個獨立事件的聯合機率可以由各個事件的邊緣機率的乘積得到。由于我們的資料集x是獨立同分布的,是以給定µ和σ2,我們可以給出資料集的機率:
當我們把它看成µ和σ2的時候,這就是⾼斯分布的似然函數。
使⽤⼀個觀測資料集來決定機率分布的參數的⼀個通⽤的标準是尋找使似然函數取得最⼤值的參數值。這個标準看起來可能很奇怪,因為從我們之前對于機率論的讨論來看,似乎在給定資料集的情況下最⼤化機率的參數(⽽不是在給定參數的情況下最⼤化資料集出現的機率)是更加⾃然的。事實上,這兩個标準是相關的。我們後⾯将使⽤曲線拟合的例⼦來說明這⼀點。但是現在,我們要通過最⼤化似然函數來确定⾼斯分布中未知的參數µ和σ2。實際應⽤中,考慮似然函數的對數值更⽅便。由于對數函數是⼀個單調遞增函數,最⼤化某個函數的對數等價于最⼤化這個函數。取對數不僅簡化了後續數學分析,也有助于數值計算,因為⼤量⼩機率的乘積很容易下溢,這可以通過計算對數機率的和的⽅式來解決。根據公式對數似然函數可以寫成:
關于µ,最⼤化函數(1.54),我們可以得到最⼤似然解:
這是樣本均值(sample mean),即觀測值{xn}的均值。類似地,關于σ2最⼤化函數,我們得到了⽅差的最⼤似然解:
這是關于樣本均值µML的樣本⽅差(sample variance)。注意,我們要同時關于µ和σ2來最⼤化函數,但是在⾼斯分布的情況下,µ的解和σ2⽆關,是以我們可以⾸先估計公式然後使⽤這個結果來估計公式。
這幅圖說明了使⽤最⼤似然⽅法确定⾼斯分布的⽅差時,偏移是如何産⽣的。綠⾊曲線表⽰真實的⾼斯分布,資料點是根據這個機率分布⽣成的。三條紅⾊曲線表⽰對三個資料集拟合得到的⾼斯機率分布,每個資料集包含兩個藍⾊的資料點,使⽤公式(1.55)和公式(1.56)給出的最⼤似然的結果進⾏拟合。對三個資料集求平均,均值是正确的,但是⽅差被系統性地低估了,因為它是相對樣本均值進⾏測量的,⽽不是相對真實的均值進⾏測量。
最⼤似然⽅法系統化地低估了分布的⽅差。這是⼀種叫做偏移(bias)的現
象的例⼦,與多項式曲線拟合問題中遇到的過拟合問題相關。我們⾸先注意到,最⼤似然解µML和σ2ML都是資料集x1,…,xN的函數。考慮這些量關于資料集的期望。資料集⾥⾯的點來⾃參數為µ和σ2的⾼斯分布。很容易證明:
是以,最⼤似然估計的平均值将會得到正确的均值,但是将會低估⽅差,因⼦為N−1/N。
注意,當資料點的數量N增⼤時,最⼤似然解的偏移會變得不太嚴重,并且在極
限N → ∞的情況下,⽅差的最⼤似然解與産⽣資料的分布的真實⽅差相等。在實際應⽤中,隻要N的值不太⼩,那麼偏移的現象不是個⼤問題。然⽽,我們感興趣的是帶有很多參數的複雜模型。這些模型中,最⼤似然的偏移問題會更加嚴重。實際上,我們會看到,最⼤似然的偏移問題是我們在多項式曲線拟合問題中遇到的過拟合問題的核⼼。