天天看点

极大似然估计和贝叶斯估计1、极大似然估计2、贝叶斯估计参考文献

  极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯估计(Bayesian Estimation)是统计推断中两种最常用的参数估计方法,二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。

  考虑这样一个问题:总体 X X 的概率密度函数为f(x|θ)f(x|θ),观测到一组样本 (X1,X2,…,Xn)=(x1,x2,…,xn) ( X 1 , X 2 , … , X n ) = ( x 1 , x 2 , … , x n ) ,需要估计参数 θ θ 。下面我们将采用不同的估计方法来求解这个问题。

1、极大似然估计

  极大似然估计是典型的频率学派观点,它的基本思想是:待估计参数 θ θ 是客观存在的,只是未知而已,当 θ̂ mle θ ^ m l e 满足“ θ=θ̂ mle θ = θ ^ m l e 时,该组观测样本 (X1,X2,…,Xn)=(x1,x2,…,xn) ( X 1 , X 2 , … , X n ) = ( x 1 , x 2 , … , x n ) 更容易被观测到“,我们就说 θ̂ mle θ ^ m l e 是 θ θ 的极大似然估计值。也即,估计值 θ̂ mle θ ^ m l e 使得事件发生的可能性最大。

  下面给出极大似然估计的数学描述:

L(θ|x)=f(x|θ)=f(x1,x2,…,xn|θ)=∏i=1nf(xi|θ)θ̂ mle=argmaxθL(θ|x) L ( θ | x ) = f ( x | θ ) = f ( x 1 , x 2 , … , x n | θ ) = ∏ i = 1 n f ( x i | θ ) θ ^ m l e = a r g max θ L ( θ | x )

2、贝叶斯估计

  贝叶斯估计是典型的贝叶斯学派观点,它的基本思想是:待估计参数 θ θ 也是随机的,和一般随机变量没有本质区别,因此只能根据观测样本估计参数 θ θ 的分布。

  贝叶斯估计利用了贝叶斯公式,给出贝叶斯公式的数学描述:

P(Bi|A)=P(Bi)P(A|Bi)P(A)=P(Bi)P(A|Bi)∑nj=1P(Bj)P(A|Bj) P ( B i | A ) = P ( B i ) P ( A | B i ) P ( A ) = P ( B i ) P ( A | B i ) ∑ j = 1 n P ( B j ) P ( A | B j )

  下面给出贝叶斯估计的数学描述:

π(θ|x)=f(x|θ)π(θ)m(x)=f(x|θ)π(θ)∫f(x|θ)π(θ)d(θ)θ̂ be=Eπ(θ|x) π ( θ | x ) = f ( x | θ ) π ( θ ) m ( x ) = f ( x | θ ) π ( θ ) ∫ f ( x | θ ) π ( θ ) d ( θ ) θ ^ b e = E π ( θ | x )

其中, π(θ) π ( θ ) 为参数 θ θ 的先验分布(prior distribution),表示对参数 θ θ 的主观认识,是非样本信息, π(θ|x) π ( θ | x ) 为参数 θ θ 的后验分布(posterior distribution)。因此,贝叶斯估计可以看作是,在假定 θ θ 服从 π(θ) π ( θ ) 的先验分布前提下,根据样本信息去校正先验分布,得到后验分布 π(θ|x) π ( θ | x ) 。由于后验分布是一个条件分布,通常我们取后验分布的期望作为参数的估计值。

2.1、最大后验估计

  在贝叶斯估计中,如果我们采用极大似然估计的思想,考虑后验分布极大化而求解 θ θ ,就变成了最大后验估计(Maximum A Posteriori estimation,MAP):

θ̂ map=argmaxθπ(θ|x)=argmaxθf(x|θ)π(θ)m(x)=argmaxθf(x|θ)π(θ) θ ^ m a p = a r g max θ π ( θ | x ) = a r g max θ f ( x | θ ) π ( θ ) m ( x ) = a r g max θ f ( x | θ ) π ( θ )

由于 m(x) m ( x ) 与 θ θ 无关,因此简化了计算。

2.2、共轭先验

  在贝叶斯估计中,如果选取先验分布 π(θ) π ( θ ) ,使得后验分布 π(θ|x) π ( θ | x ) 与 π(θ) π ( θ ) 属于同一分布簇(即共轭分布),则称 π(θ) π ( θ ) 为似然函数 f(x|θ) f ( x | θ ) 的共轭先验。

  共轭先验的选取有如下好处:a).符合直观,先验分布和后验分布应该是相同形式的;b).可以给出后验分布的解析形式;c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。

  常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)。

  很显然,共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。关于这些,读者可自行了解。

此文来自笔者对以前分享过的一个PPT的二次整理,内容略有删减,感兴趣的读者可以直接查看PPT。

参考文献

[1] http://blog.csdn.net/dyllove98/article/details/9385559

[2] http://blog.csdn.net/zouxy09/article/details/8537620

[3] http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

[4] https://www.zhihu.com/question/40797593

[5] http://www.tuicool.com/articles/Av6NVzy

[6] http://blog.csdn.net/hechenghai/article/details/41896213

[7] https://www.zhihu.com/question/22371861

[8] https://www.zhihu.com/question/24614401

[9] http://blog.csdn.net/lihaitao000/article/details/51894496

[10] http://bbs.pinggu.org/thread-746887-1-1.html

[11] http://blog.csdn.net/wsj998689aa/article/details/46792543

[12] http://blog.csdn.net/manji_lee/article/details/41335307

[13] http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html

[14] http://irwenqiang.iteye.com/blog/1552680

[15] http://blog.pluskid.org/?p=39

[16] https://www.zhihu.com/question/49972233?sort=created

[17] http://blog.csdn.net/llp1992/article/details/47058109

[18] http://www.csdn.net/article/2012-07-03/2807073-k-means

以上为本文的全部参考文献,对原作者表示感谢。

继续阅读