天天看点

3.2 参数估计:极大似然估计方法 ML

3.2 极大似然估计方法 ML

极大似然估计方法是高斯提出,并利用该技术获得测量误差满足高斯分布的结论。假设随机变量满足概率密度函数 p ( x ∣ θ ) p(x|\mathbf{\theta}) p(x∣θ),其中 θ \mathbf{\theta} θ 是需要估计的参数向量,比如高斯分布中的均值和方差参数,令随机抽取到 n n n 个样本 ( x 1 , ⋯   , x n ) (x_1,\cdots,x_n) (x1​,⋯,xn​) 。每个样本被抽取到的概率为 p ( x i ∣ θ ) p(x_i|\mathbf{\theta}) p(xi​∣θ) ,假设每个样本都是独立的,则抽取到整个样本集的概率为

p ( θ ) = ∏ i p ( x i ∣ θ ) p(\mathbf{\theta}) = \prod_i p(x_i|\mathbf{\theta}) p(θ)=i∏​p(xi​∣θ)

极大似然估计方法的假设是,既然我们抽取到了样本集 ( x 1 , ⋯   , x n ) (x_1,\cdots,x_n) (x1​,⋯,xn​) ,而不是抽取到其他样本集,这说明该样本集出现的概率很高,故假设其出现概率极大,称为似然函数。所以极大似然估计得到的参数估计值使似然函数极大。即

θ ˉ m l = a r g m a x ∏ i p ( x i ∣ θ ) \bar \mathbf{\theta}_{ml} = argmax \prod_i p(x_i|\mathbf{\theta}) θˉml​=argmaxi∏​p(xi​∣θ)

由于概率密度一般为连续函数,故上式对参数取偏导数并令其等于 0 ,可得到 m m m 个标量方程组,解方程组即可。但这些方程一般是耦合且非线性的,除了简单情况,只能数值求解。 m m m 为估计参数数量。

由于似然函数是连乘且概率密度函数常包含指数函数且大于 0 ,采用数学技巧变为求对数概率最大,即

θ ˉ m l = a r g m a x ∑ i l o g p ( x i ∣ θ ) \bar \mathbf{\theta}_{ml} = argmax \sum_i log p(x_i|\mathbf{\theta}) θˉml​=argmaxi∑​logp(xi​∣θ)

采用极大似然估计方法估计高斯分布参数为

μ ˉ m l = 1 / n ∑ i x i σ 2 ˉ m l = 1 / n ∑ i ( x i − μ ˉ m l ) 2 \bar {\mu}_{ml} = 1/n\sum_i x_i \\ \bar {\sigma^2}_{ml} = 1/n\sum_i (x_i - \bar {\mu}_{ml})^2 μˉ​ml​=1/ni∑​xi​σ2ˉml​=1/ni∑​(xi​−μˉ​ml​)2

和采用矩方法结果很类似,只是方差参数是除以 n n n ,而不是 n − 1 n-1 n−1 ,当 n n n 较大时差别可忽略。

采用极大似然估计方法估计拉普拉斯分布 p ( x ) = 1 2 σ e x p ( − ∣ x − μ ∣ σ ) p(x) = \frac{1}{2\sigma} exp(-\frac{|x-\mu|}{\sigma}) p(x)=2σ1​exp(−σ∣x−μ∣​) 参数为

μ ˉ m l = 数 组 x i 的 中 值 σ ˉ m l = 1 / n ∑ i ∣ x i − μ ˉ m l ∣ \bar {\mu}_{ml} = 数组 x_i 的中值 \\ \bar {\sigma}_{ml} = 1/n \sum_i |x_i - \bar {\mu}_{ml}| μˉ​ml​=数组xi​的中值σˉml​=1/ni∑​∣xi​−μˉ​ml​∣

和采用矩方法结果完全不同,由于数组中值不受异常值影响,故分布均值估计很稳健;尺度参数估计是计算绝对值,是一次方关系,而矩方法是平方,是二次方关系,可见极大似然估计方法估计尺度参数比矩方法更稳健,虽然也会受到异常值影响。鲁棒最小二乘法和鲁棒 PCA 都采用了这种数学方法,这是这些方法背后的原理。这也验证了极大似然估计方法的合理性。

一般来说,极大似然估计方法比矩方法更鲁棒。

极大似然估计方法还可用于离散随机变量的估计。取伯努利分布为例,随机变量取 1,0 两个值,概率分布为 p , 1 − p p, 1-p p,1−p , p p p 未知,需要估计。假设随机抽样得到 n n n 个样本,得到样本集 D = ( x 1 , ⋯   , x n ) D = (x_1,\cdots,x_n) D=(x1​,⋯,xn​) ,每一次试验是独立的,那么这些样本同时出现的概率就是这些样本单独出现的概率的乘积。

P ( D ) = ∏ i p x i ( 1 − p ) 1 − x i P(D) = \prod_i p^{x_i}(1-p)^{1-x_i} P(D)=i∏​pxi​(1−p)1−xi​

取对数,对 p p p 求导并令导数为 0,可得参数 p p p 的估计值

p = 1 n ∑ i x i = m n p = \frac{1}{n}\sum_i x_i = \frac{m}{n} p=n1​i∑​xi​=nm​

其中 m m m 是抽样到 1 的次数,即成功次数。

这个结果十分符合人的直觉。翻译成生活语言就是,假设一个箱子有很多黑球和白球,我们需要估计黑球的比例。我们共抽取 n n n 个球,其中黑球有 m m m 个,则黑球比例的合理估计是 m / n m/n m/n ,显然当 n n n 很大时,估计越来越准确。这个估计值就是极大似然估计值。

该估计的理论基础是伯努利大数定理,设 m m m 为 n n n 重伯努利实验中事件A发生的次数, p p p 为A在每次实验中发生的概率, n n n 趋向于无穷大时,事件A在 n n n 重伯努利事件中发生的频率 m / n m/n m/n 无限接近于事件A发生的概率 p p p 。我们生活中会不自觉的经常利用该定理进行推断。另一种表达方式为当样本数据无限大时,样本均值趋于分布均值,这就是切比雪夫大数定律,这也是用样本均值估计分布均值的理论基础。

继续阅读