极大似然估计（Maximum Likelihood Estimation，MLE）和贝叶斯估计（Bayesian Estimation）是统计推断中两种最常用的参数估计方法，二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。

考虑这样一个问题：总体 X X 的概率密度函数为f(x|θ)f(x|θ)，观测到一组样本 (X1,X2,…,Xn)=(x1,x2,…,xn) ( X 1 , X 2 , … , X n ) = ( x 1 , x 2 , … , x n ) ，需要估计参数 θ θ 。下面我们将采用不同的估计方法来求解这个问题。

1、极大似然估计

极大似然估计是典型的频率学派观点，它的基本思想是：待估计参数 θ θ 是客观存在的，只是未知而已，当 θ̂ mle θ ^ m l e 满足“ θ=θ̂ mle θ = θ ^ m l e 时，该组观测样本 (X1,X2,…,Xn)=(x1,x2,…,xn) ( X 1 , X 2 , … , X n ) = ( x 1 , x 2 , … , x n ) 更容易被观测到“，我们就说 θ̂ mle θ ^ m l e 是 θ θ 的极大似然估计值。也即，估计值 θ̂ mle θ ^ m l e 使得事件发生的可能性最大。

下面给出极大似然估计的数学描述：

L(θ|x)=f(x|θ)=f(x1,x2,…,xn|θ)=∏i=1nf(xi|θ)θ̂ mle=argmaxθL(θ|x) L ( θ | x ) = f ( x | θ ) = f ( x 1 , x 2 , … , x n | θ ) = ∏ i = 1 n f ( x i | θ ) θ ^ m l e = a r g max θ L ( θ | x )

2、贝叶斯估计

贝叶斯估计是典型的贝叶斯学派观点，它的基本思想是：待估计参数 θ θ 也是随机的，和一般随机变量没有本质区别，因此只能根据观测样本估计参数 θ θ 的分布。

贝叶斯估计利用了贝叶斯公式，给出贝叶斯公式的数学描述：

下面给出贝叶斯估计的数学描述：

π(θ|x)=f(x|θ)π(θ)m(x)=f(x|θ)π(θ)∫f(x|θ)π(θ)d(θ)θ̂ be=Eπ(θ|x) π ( θ | x ) = f ( x | θ ) π ( θ ) m ( x ) = f ( x | θ ) π ( θ ) ∫ f ( x | θ ) π ( θ ) d ( θ ) θ ^ b e = E π ( θ | x )

其中， π(θ) π ( θ ) 为参数 θ θ 的先验分布（prior distribution），表示对参数 θ θ 的主观认识，是非样本信息， π(θ|x) π ( θ | x ) 为参数 θ θ 的后验分布（posterior distribution）。因此，贝叶斯估计可以看作是，在假定 θ θ 服从 π(θ) π ( θ ) 的先验分布前提下，根据样本信息去校正先验分布，得到后验分布 π(θ|x) π ( θ | x ) 。由于后验分布是一个条件分布，通常我们取后验分布的期望作为参数的估计值。

2.1、最大后验估计

在贝叶斯估计中，如果我们采用极大似然估计的思想，考虑后验分布极大化而求解 θ θ ，就变成了最大后验估计（Maximum A Posteriori estimation，MAP）：

由于 m(x) m ( x ) 与 θ θ 无关，因此简化了计算。

2.2、共轭先验

在贝叶斯估计中，如果选取先验分布 π(θ) π ( θ ) ，使得后验分布 π(θ|x) π ( θ | x ) 与 π(θ) π ( θ ) 属于同一分布簇（即共轭分布），则称 π(θ) π ( θ ) 为似然函数 f(x|θ) f ( x | θ ) 的共轭先验。

共轭先验的选取有如下好处：a).符合直观，先验分布和后验分布应该是相同形式的；b).可以给出后验分布的解析形式；c).可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。

常见的共轭先验有：Beta分布（二项分布）、Dirichlet分布（多项分布）。

很显然，共轭先验的选取很大程度上是基于数学理论的方便性，带有很强的主观色彩，而这也是饱受频率学派诟病的一点。频率学派认为，只有在先验分布有一种不依赖主观的意义，且能根据适当的理论或以往的经验决定时，才允许在统计推断中使用先验分布，否则就会丧失客观性。关于这些，读者可自行了解。

此文来自笔者对以前分享过的一个PPT的二次整理，内容略有删减，感兴趣的读者可以直接查看PPT。

参考文献

[1] http://blog.csdn.net/dyllove98/article/details/9385559

[2] http://blog.csdn.net/zouxy09/article/details/8537620

[3] http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

[4] https://www.zhihu.com/question/40797593

[5] http://www.tuicool.com/articles/Av6NVzy

[6] http://blog.csdn.net/hechenghai/article/details/41896213

[7] https://www.zhihu.com/question/22371861

[8] https://www.zhihu.com/question/24614401

[9] http://blog.csdn.net/lihaitao000/article/details/51894496

[10] http://bbs.pinggu.org/thread-746887-1-1.html

[11] http://blog.csdn.net/wsj998689aa/article/details/46792543

[12] http://blog.csdn.net/manji_lee/article/details/41335307

[13] http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html

[14] http://irwenqiang.iteye.com/blog/1552680

[15] http://blog.pluskid.org/?p=39

[16] https://www.zhihu.com/question/49972233?sort=created

[17] http://blog.csdn.net/llp1992/article/details/47058109

[18] http://www.csdn.net/article/2012-07-03/2807073-k-means

以上为本文的全部参考文献，对原作者表示感谢。

极大似然估计和贝叶斯估计1、极大似然估计2、贝叶斯估计参考文献

1、极大似然估计

2、贝叶斯估计

2.1、最大后验估计

2.2、共轭先验

参考文献

继续阅读

程序员的自我修养之数学基础02：向量（向量的运算、模、夹角、距离和Python实现）

先验概率、后验概率以及共轭先验

转载：先验概率、后验概率以及共轭先验（原作者：白马负金羁）转载自白马负金羁博文，为方便自己以后查阅，故转载之。此处谨对原文作者表示由衷感谢！原文链接：https://blog.csdn.net/baimafujinji/article/details/51374202

模式识别（Pattern Recognition）学习笔记（五）——概率密度函数（pdf）的参数估计

[贝叶斯九]之EM算法一、简单介绍二、理论推导四、一个简单例子参考文献

【数学基础】----期望、方差、协方差、相关系数

最大似然估计与最大后验估计总结TLDR (or the take away)两大学派的争论问题引入最大似然估计最大后验估计

参数估计：文本分析的参数估计方法参数估计最大似然估计MLE最大后验估计MAP

文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

最大似然估计和最大后验概率估计

概率、似然与极大似然估计

概率密度直方图与累积分布直方图

最小二乘问题，，而不是方法

#同城引流【数学基础】三年级本节体验课内容:基本单位换算、基本数学运算（小数加减、整数乘除等）、长方形面积计算、地点方位

对数损失和交叉熵损失

Day07-数学基础-经济问题(DataWhale)