天天看点

matlab中表示拉普拉斯分布_神奇的正态分布

matlab中表示拉普拉斯分布_神奇的正态分布

在统计学中有各种各样的分布,称为统计分布,例如有离散型的伯努利分布、二项分布、超几何分布、几何分布、负二项分布、泊松分布,有连续型的均匀分布、指数分布、t分布、卡方分布、F分布、正态分布等等,其中正态分布无疑最为常见、应用也最为广泛。正态分布不但其曲线优雅,而且其密度函数也很有数学美感,特别是其标准化后的概率密度函数非常简洁漂亮。更令人惊讶的是,两个最重要的数学常量π,e都出现在了公式之中,使得其具有一些神秘色彩。生物统计学家高尔顿对正态分布推崇备至:“我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序”。

正态分布因其分布形状似同古代铸钟,故也称为钟型分布。正态分布的基本特征是“中间大、两头小”,即中心数值出现的频率最高,两边数值的频率渐次下降,也形同一座山峰。在现实中,或许完全符合正态分布的现象并不存在,但接近或形同正态分布的现象却比比皆是。例如,人的身高分布、体重分布、寿命分布,大量的生物医学指标分布,历史气温分布、降雨量分布,地块产量分布,居民收入(财产)分布等等,都是“中间大、两头小”的分布。正态分布最早由德国数学家、天文学家棣莫弗(De Moivre)发现,但却以德国另一数学家高斯(Gauss)命名。德国的钢镚和10马克的纸币上都刻有或印有高斯的头像和正态密度曲线,以主要纪念其在正态分布上的突出贡献。

 然而,正态分布看似简单,但其被发现的过程却不简单。

 1733年,为了回答赌徒提出的赌场挣钱期望问题,棣莫弗基于两位赌徒的获胜概率,就二项分布的计算方法和随机变量X落在二项分布中心点一定范围的概率问题进行了数学推导(由于惠更斯(christiaan huygens)、帕斯卡(Blaise Pascal)等人研究了平均情况下一个赌徒期望自己能够赢得多少钱,故总体均值也被称为数学期望)。在假定赌徒获胜概率为1/2时,棣莫弗在其所推导出的积分公式中出现了正态分布的密度函数形式。之后,他与拉普拉斯(Lapalace)都对赌徒获胜概率非1/2的情况进行了拓展分析,把二项分布的正态近似特性推广到了赌徒获胜概率为任意值的情况。这就是最早的被数学家以二项分布极限形式勾画出来的正态密度函数。这个结果,就叫做棣莫弗-拉普拉斯中心极限定理。但由于棣莫弗未从统计学的角度去考虑其工作的意义,所以没有引起社会的足够重视,也失去了以其命名正态分布的机会。1770年,拉普拉斯给出了中心极限定理的一般形式,之后又被其他数学家们推广到了任意分布的情形。再之后,统计学家进一步研究发现,当样本量趋于无穷大时,样本均值的概率分布都趋于服从正态分布。

那为什么正态分布的命名会幸运地落在高斯的头上?原因就在于高斯在开展天文观测误差的研究中,拓展了最小二乘法,并把正态分布与最小二乘法联系在一起,使得正态分布在统计误差分析中确立了地位。十八世纪中后期到十九世纪初,欧拉(Euler)、拉普拉斯、勒让德(Legendre)和高斯等人,基于天文学(例如计算土星和木星的运行轨道)和测地学(测量通过巴黎的子午线的长度)研究中积累的多次测量数据,探讨了观测误差和测量数据平均值的应用问题——测量中的随机误差应该服从怎样的概率分布?算术平均的优良性与误差分布是什么样的关系?为了得出测量值,欧拉和拉普拉斯采用求解方程组的方法来求解线性方程,但遇到了困难,直到勒让德于1805年发明了最小二乘法。勒让德概括出最小二乘法的优点是“使误差平方和达到最小,可以导出算术平均数作为估计值。”然而,高斯在1809年发表文章声称自己早已使用最小二乘法进行天文观测数据分析了,使得其与勒让德的发明权之争,齐名于牛顿与莱布尼茨的微积分发明权之争。客观地讲,高斯确实利用自己独特的小行星轨道计算方法,成功地预测了1801年12月31日夜晚谷神星的出现,而其1809年所公布的计算方法正是以正态误差分布为基础的最小二乘法。

 关于观测误差,伽利略早在其名著《关于两个主要世界系统的对话》中就作了大致的描述:误差分布是对称的。之后,包括托马斯•辛普森(Thomas Simpson)、拉普拉斯在内的许多天文学家和数学家都开展了寻找误差分布曲线的相关工作。然而,真正解决问题的是高斯。他以“算术平均数是一个好的估计”为出发点,去寻找满足“极大似然估计等于算术平均数”这一条件的误差密度函数,结果在所有的概率密度函数中,只有正态分布密度函数满足这个要求。基于这个误差分布函数,高斯对最小二乘法进行了进一步的解释,使之成为了十九世纪统计学最为重要的成就。尽管有人质疑高斯的推导过程有“循环论证”之嫌,但丝毫不影响其发明之伟大。之后,拉普拉斯发现正态分布既可以从随机抛掷钢镚产生的序列求和中生成、也可以被完美地作为误差分布定律。他将误差的正态分布理论与中心极限定理联系起来,提出了元误差解释:如果可以把误差看成许多微小量的叠加,那么根据他的中心极限定理,随机误差分布自然就是正态分布。随着20世纪中心极限定理的进一步发展,这个解释也更有力道,并且消除了“循环论证”之虑。只可惜,从发现正态分布密度函数的时间上看,拉普拉斯比高斯晚了一步。为了争夺命名权,法国人称正态分布为“拉普拉斯分布”,德国人称之为“高斯分布”,其他人则称之为“拉普拉斯-高斯分布”。后来经法国数学家庞加莱提议、英国统计学家卡尔.皮尔逊推动,才统一称之为正态分布。

 之后,又有多位专家从不同的角度推导出了正态分布密度函数,并且随着中心极限定理的进一步完善,正态分布的属性特征也不断被人们挖掘、熟知并应用。特别是比利时统计学家凯特勒和英国统计学家高尔顿对正态分布的实践应用起到了关键的作用。凯特勒的贡献是把概率论引入统计学,用正态分布来拟合他所收集的关于人体生理测量的数据(如体重、身高与胸围等)。在他的带领下,正态分布逐渐在人口、农业、工业、商业、政治、道德等社会领域和天文学、物理学、生物学、气象学等自然科学领域得到了推广应用。高尔顿的贡献则是用正态分布来研究生物遗传现象,他甚至亲手设计了一个叫高尔顿钉板(quincunx,或者Galton board)的装置,试图通过模拟正态分布的性质来解释生物遗传现象(亲子身高关系)。再之后,以正态分布为基础,皮尔逊发明了包含四个参数的皮尔逊分布族(例如以均值、标准差、偏度和峰度来测度正态性),戈塞特(W.S.Gosset)以学生氏之名发明了小样本t分布,费希尔(R.A.Fisher)则基于方差分析发明了F分布,丰富和发展了统计分布理论。

 正态分布的最神奇之处就是变量分布以均值为中心左右两边完全对称,这看起来似乎没什么,但却蕴含着很多优良特性。例如,两个正态分布密度的乘积还是正态分布;两个正态分布密度的卷积、即两个正态分布的和还是正态分布;正态分布的傅立叶变换依然是正态分布;中心极限定理保证了多个随机变量的求和效应会导致正态分布;正态分布和其它具有相同方差的概率分布相比具有最大熵,等等。最重要的是,任何其他分布的极限形式都是正态分布,正可谓万变不离其宗。难怪有人说,正态分布是“神”的分布。

如今,正态分布已是众人皆知,尤其是正态分布再生定理和中心极限定理的实践应用非常普遍,在产品质量控制(例如6σ方法)、假设检验、抽样区间估计、回归模型构建等方面发挥了巨大的作用。当然,这并不是说我们已经完全掌握了正态分布的奥妙,事实上我们对其来龙去脉依然还有很多未知,特别是对于多维多元、非线性的情况更是如此。现实中,人们乱用正态分布的现象并不少见,例如假设检验中的p值乱象就非常突出。在进入大数据时代后,对于大数据分析尤其是非结构化数据分析,正态分布理论与方法还能不能使用、该怎么使用,则是一个崭新的课题。

 正态曲线是一条完美而神奇的曲线。让我们跟随着数据型态变化的步伐,去努力保持正态分布的正态性,保持正态曲线的完美性!

(已刊登于《中国统计》2020年第9期)