3.2 极大似然估计方法 ML
极大似然估计方法是高斯提出,并利用该技术获得测量误差满足高斯分布的结论。假设随机变量满足概率密度函数 p ( x ∣ θ ) p(x|\mathbf{\theta}) p(x∣θ),其中 θ \mathbf{\theta} θ 是需要估计的参数向量,比如高斯分布中的均值和方差参数,令随机抽取到 n n n 个样本 ( x 1 , ⋯ , x n ) (x_1,\cdots,x_n) (x1,⋯,xn) 。每个样本被抽取到的概率为 p ( x i ∣ θ ) p(x_i|\mathbf{\theta}) p(xi∣θ) ,假设每个样本都是独立的,则抽取到整个样本集的概率为
p ( θ ) = ∏ i p ( x i ∣ θ ) p(\mathbf{\theta}) = \prod_i p(x_i|\mathbf{\theta}) p(θ)=i∏p(xi∣θ)
极大似然估计方法的假设是,既然我们抽取到了样本集 ( x 1 , ⋯ , x n ) (x_1,\cdots,x_n) (x1,⋯,xn) ,而不是抽取到其他样本集,这说明该样本集出现的概率很高,故假设其出现概率极大,称为似然函数。所以极大似然估计得到的参数估计值使似然函数极大。即
θ ˉ m l = a r g m a x ∏ i p ( x i ∣ θ ) \bar \mathbf{\theta}_{ml} = argmax \prod_i p(x_i|\mathbf{\theta}) θˉml=argmaxi∏p(xi∣θ)
由于概率密度一般为连续函数,故上式对参数取偏导数并令其等于 0 ,可得到 m m m 个标量方程组,解方程组即可。但这些方程一般是耦合且非线性的,除了简单情况,只能数值求解。 m m m 为估计参数数量。
由于似然函数是连乘且概率密度函数常包含指数函数且大于 0 ,采用数学技巧变为求对数概率最大,即
θ ˉ m l = a r g m a x ∑ i l o g p ( x i ∣ θ ) \bar \mathbf{\theta}_{ml} = argmax \sum_i log p(x_i|\mathbf{\theta}) θˉml=argmaxi∑logp(xi∣θ)
采用极大似然估计方法估计高斯分布参数为
μ ˉ m l = 1 / n ∑ i x i σ 2 ˉ m l = 1 / n ∑ i ( x i − μ ˉ m l ) 2 \bar {\mu}_{ml} = 1/n\sum_i x_i \\ \bar {\sigma^2}_{ml} = 1/n\sum_i (x_i - \bar {\mu}_{ml})^2 μˉml=1/ni∑xiσ2ˉml=1/ni∑(xi−μˉml)2
和采用矩方法结果很类似,只是方差参数是除以 n n n ,而不是 n − 1 n-1 n−1 ,当 n n n 较大时差别可忽略。
采用极大似然估计方法估计拉普拉斯分布 p ( x ) = 1 2 σ e x p ( − ∣ x − μ ∣ σ ) p(x) = \frac{1}{2\sigma} exp(-\frac{|x-\mu|}{\sigma}) p(x)=2σ1exp(−σ∣x−μ∣) 参数为
μ ˉ m l = 数 组 x i 的 中 值 σ ˉ m l = 1 / n ∑ i ∣ x i − μ ˉ m l ∣ \bar {\mu}_{ml} = 数组 x_i 的中值 \\ \bar {\sigma}_{ml} = 1/n \sum_i |x_i - \bar {\mu}_{ml}| μˉml=数组xi的中值σˉml=1/ni∑∣xi−μˉml∣
和采用矩方法结果完全不同,由于数组中值不受异常值影响,故分布均值估计很稳健;尺度参数估计是计算绝对值,是一次方关系,而矩方法是平方,是二次方关系,可见极大似然估计方法估计尺度参数比矩方法更稳健,虽然也会受到异常值影响。鲁棒最小二乘法和鲁棒 PCA 都采用了这种数学方法,这是这些方法背后的原理。这也验证了极大似然估计方法的合理性。
一般来说,极大似然估计方法比矩方法更鲁棒。
极大似然估计方法还可用于离散随机变量的估计。取伯努利分布为例,随机变量取 1,0 两个值,概率分布为 p , 1 − p p, 1-p p,1−p , p p p 未知,需要估计。假设随机抽样得到 n n n 个样本,得到样本集 D = ( x 1 , ⋯ , x n ) D = (x_1,\cdots,x_n) D=(x1,⋯,xn) ,每一次试验是独立的,那么这些样本同时出现的概率就是这些样本单独出现的概率的乘积。
P ( D ) = ∏ i p x i ( 1 − p ) 1 − x i P(D) = \prod_i p^{x_i}(1-p)^{1-x_i} P(D)=i∏pxi(1−p)1−xi
取对数,对 p p p 求导并令导数为 0,可得参数 p p p 的估计值
p = 1 n ∑ i x i = m n p = \frac{1}{n}\sum_i x_i = \frac{m}{n} p=n1i∑xi=nm
其中 m m m 是抽样到 1 的次数,即成功次数。
这个结果十分符合人的直觉。翻译成生活语言就是,假设一个箱子有很多黑球和白球,我们需要估计黑球的比例。我们共抽取 n n n 个球,其中黑球有 m m m 个,则黑球比例的合理估计是 m / n m/n m/n ,显然当 n n n 很大时,估计越来越准确。这个估计值就是极大似然估计值。
该估计的理论基础是伯努利大数定理,设 m m m 为 n n n 重伯努利实验中事件A发生的次数, p p p 为A在每次实验中发生的概率, n n n 趋向于无穷大时,事件A在 n n n 重伯努利事件中发生的频率 m / n m/n m/n 无限接近于事件A发生的概率 p p p 。我们生活中会不自觉的经常利用该定理进行推断。另一种表达方式为当样本数据无限大时,样本均值趋于分布均值,这就是切比雪夫大数定律,这也是用样本均值估计分布均值的理论基础。