1 高斯分布
对于⼀元实值变量x,⾼斯分布被定义为:
它由两个参数控制:µ,被叫做均值(mean),以及σ2,被叫做方(variance)。⽅差的平⽅根,由σ给定,被叫做标准差(standard deviation)。⽅差的倒数,记作β =1/σ2,被叫做精度(precision)。我们稍后将看到这些项的意义。高斯分布的图像如下:
很容易证明⾼斯分布是归⼀化的,因此:
我们已经能够找到关于x的函数在⾼斯分布下的期望。特别地,x的平均值为:
于参数µ表⽰在分布下的x的平均值,它通常被叫做均值。类似地,⼆阶矩为:
x的⽅差被定义为:
var[x] = E[x2] − E[x]= σ
因此σ2也被叫做方差参数。分布的最大值被叫做众数。对于高斯分布,众数与均值恰好相等。我们也对D维向量x的⾼斯分布也感兴趣,定义为:
图: 高斯概率分布的似然函数,由红色曲线表⽰。这⾥,黑点表示数据集{xn}的值,公式给出的似然函数对应于蓝色值的乘积。最⼤化似然函数涉及到调节高斯分布的均值和方差,使得这个乘积最大。
其中D维向量µ被称为均值,D × D的矩阵Σ被称为协⽅差,|Σ|表⽰Σ的行列式。
现在假定我们有⼀个观测的数据集x = (x1,…,xN)T,表⽰标量变量x的N次观测。注意,我们使⽤了⼀个字体不同的x来和向量变量(x1,…,xD)T作区分,后者记作x。我们假定各次观测是独⽴地从⾼斯分布中抽取的,分布的均值µ和方差σ2未知,我们想根据数据集来确定这些参数。独⽴地从相同的数据点中抽取的数据点被称为独立同分布(independent and identicallydistributed),通常缩写成i.i.d.。我们已经看到两个独立事件的联合概率可以由各个事件的边缘概率的乘积得到。由于我们的数据集x是独立同分布的,因此给定µ和σ2,我们可以给出数据集的概率:
当我们把它看成µ和σ2的时候,这就是⾼斯分布的似然函数。
使⽤⼀个观测数据集来决定概率分布的参数的⼀个通⽤的标准是寻找使似然函数取得最⼤值的参数值。这个标准看起来可能很奇怪,因为从我们之前对于概率论的讨论来看,似乎在给定数据集的情况下最⼤化概率的参数(⽽不是在给定参数的情况下最⼤化数据集出现的概率)是更加⾃然的。事实上,这两个标准是相关的。我们后⾯将使⽤曲线拟合的例⼦来说明这⼀点。但是现在,我们要通过最⼤化似然函数来确定⾼斯分布中未知的参数µ和σ2。实际应⽤中,考虑似然函数的对数值更⽅便。由于对数函数是⼀个单调递增函数,最⼤化某个函数的对数等价于最⼤化这个函数。取对数不仅简化了后续数学分析,也有助于数值计算,因为⼤量⼩概率的乘积很容易下溢,这可以通过计算对数概率的和的⽅式来解决。根据公式对数似然函数可以写成:
关于µ,最⼤化函数(1.54),我们可以得到最⼤似然解:
这是样本均值(sample mean),即观测值{xn}的均值。类似地,关于σ2最⼤化函数,我们得到了⽅差的最⼤似然解:
这是关于样本均值µML的样本⽅差(sample variance)。注意,我们要同时关于µ和σ2来最⼤化函数,但是在⾼斯分布的情况下,µ的解和σ2⽆关,因此我们可以⾸先估计公式然后使⽤这个结果来估计公式。
这幅图说明了使⽤最⼤似然⽅法确定⾼斯分布的⽅差时,偏移是如何产⽣的。绿⾊曲线表⽰真实的⾼斯分布,数据点是根据这个概率分布⽣成的。三条红⾊曲线表⽰对三个数据集拟合得到的⾼斯概率分布,每个数据集包含两个蓝⾊的数据点,使⽤公式(1.55)和公式(1.56)给出的最⼤似然的结果进⾏拟合。对三个数据集求平均,均值是正确的,但是⽅差被系统性地低估了,因为它是相对样本均值进⾏测量的,⽽不是相对真实的均值进⾏测量。
最⼤似然⽅法系统化地低估了分布的⽅差。这是⼀种叫做偏移(bias)的现
象的例⼦,与多项式曲线拟合问题中遇到的过拟合问题相关。我们⾸先注意到,最⼤似然解µML和σ2ML都是数据集x1,…,xN的函数。考虑这些量关于数据集的期望。数据集⾥⾯的点来⾃参数为µ和σ2的⾼斯分布。很容易证明:
因此,最⼤似然估计的平均值将会得到正确的均值,但是将会低估⽅差,因⼦为N−1/N。
注意,当数据点的数量N增⼤时,最⼤似然解的偏移会变得不太严重,并且在极
限N → ∞的情况下,⽅差的最⼤似然解与产⽣数据的分布的真实⽅差相等。在实际应⽤中,只要N的值不太⼩,那么偏移的现象不是个⼤问题。然⽽,我们感兴趣的是带有很多参数的复杂模型。这些模型中,最⼤似然的偏移问题会更加严重。实际上,我们会看到,最⼤似然的偏移问题是我们在多项式曲线拟合问题中遇到的过拟合问题的核⼼。