天天看点

数据挖掘中所需的概率论与数理统计知识(上)

前言

    一个月余前,在微博上感慨道,不知日后是否有无机会搞DM,微博上的朋友只看不发的围脖评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣。想想,甚合我意。自此,便从rickjin写的“正态分布的前世今生”开始研习数学。

    如之前所说,“今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从‘正态分布的前后今生’中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,完后学概率论与数理统计,感概道:微积分是概数统计基础,概数统计则是DM&ML之必修课。”包括读者相信也已经感觉到,我在写这个Top 10 Algorithms in Data Mining系列的时候,其中涉及到诸多的数学概念与基础知识(例如此篇SVM文章内诸多max.s.t.对偶.KKT条件.拉格朗日.松弛因子等问题则皆属于数学内一分支:最优化理论与算法范畴内),特别是概率论与数理统计部分。更进一步,在写上一篇文章的时候,看到机器学习中那么多距离度量的表示法,发现连最起码的期望,方差,标准差等基本概念都甚感模糊,于此,便深感数学之重要性。

    很快,我便买了一本高等教育出版社出版的概率论与数理统计一书,此书“从0-1分布、到二项分布、正态分布,概率密度函数,从期望到方差、标准差、协方差,中心极限定理,样本和抽样,从最大似然估计量到各种置信区间,从方差分析到回归分析,bootstrap方法,最后到马尔可夫链,以前在学校没开概率论与数理统计这门课,现在有的学有的看了”。且人类发明计算机,是为了辅助人类解决现实生活中遇到的问题,然计算机科学毕竟只发展了数十年,可在数学.统计学中,诸多现实生活问题已经思考了数百年甚至上千年,故,计算机若想更好的服务人类解决问题,须有效借鉴或参考数学.统计学。世间万事万物,究其本质乃数学,于变化莫测中寻其规律谓之统计学。

    话休絮烦。本文结合高数上下册等书、微积分概念发展史,概率论与数理统计、数理统计学简史等书(此文亦可看作此些书的读书笔记)与wikipedia,对数据挖掘中所需的概率论与数理统计相关知识概念作个科普,方便你我随时查看复习相关概念,而欲深入学习研究的课后还需参看相关专业书籍.资料。同时,本文篇幅会比较长,简单来说,本文:

  1. 第一节讲概念:微积分中极限、导数,微分、积分;
  2. 第二节讲概念:关于随机变量及其分布;
  3. 第二节讲历史:从历史中窥探正态分布的前后由来;
  4. 第三节继续讲概念:关于数学期望.方差等。

    四部分起承转合,彼此依托。且在本文中,会出现诸多并不友好的大量各种公式,但基本的概念.定理是任何复杂问题的根基,所以,你我都有必要硬着头皮好好细细阅读。最后,本文若有任何问题或错误,恳请广大读者朋友们不吝批评指正,谢谢。

第一节、微积分的基本概念

    开头前言说,微积分是概数统计基础,概数统计则是DM&ML之必修课”,是有一定根据的,包括后续数理统计当中,如正态分布的概率密度函数中用到了相关定积分的知识,包括最小二乘法问题的相关探讨求证都用到了求偏导数的等概念,这些都是跟微积分相关的知识。故咱们第一节先复习下微积分的相关基本概念。

    事实上,古代数学中,单单无穷小、无穷大的概念就讨论了近200年,而后才由无限发展到极限的概念。

1.1、极限

    极限又分为两部分:数列的极限和函数的极限。

1.1.1、数列的极限

    定义  如果数列{xn}与常a 有下列关系:对于任意给定的正数e (不论它多么小), 总存在正整数N , 使得对于n >N 时的一切xn, 不等式 |xn-a |<e都成立, 则称常数a 是数列{xn}的极限, 或者称数列{xn}收敛于a , 记为

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

    也就是说,

数据挖掘中所需的概率论与数理统计知识(上)

1.1.2、函数的极限

    设函数f(x)在点x0的某一去心邻域内有定义. 如果存在常数A, 对于任意给定的正数e (不论它多么小), 总存在正数d, 使得当x满足不等式0<|x-x0|<d 时, 对应的函数值f(x)都满足不等式     |f(x)-A|<e , 那么常数A就叫做函数f(x)时

数据挖掘中所需的概率论与数理统计知识(上)

的极限, 记为

数据挖掘中所需的概率论与数理统计知识(上)

    也就是说,

数据挖掘中所需的概率论与数理统计知识(上)

    几乎没有一门新的数学分支是某个人单独的成果,如笛卡儿和费马的解析几何不仅仅是他们两人研究的成果,而是若干数学思潮在16世纪和17世纪汇合的产物,是由许许多多的学者共同努力而成。

    甚至微积分的发展也不是牛顿与莱布尼茨两人之功。在17世纪下半叶,数学史上出现了无穷小的概念,而后才发展到极限,到后来的微积分的提出。然就算牛顿和莱布尼茨提出了微积分,但微积分的概念尚模糊不清,在牛顿和莱布尼茨之后,后续经过一个多世纪的发展,诸多学者的努力,才真正清晰了微积分的概念。

    也就是说,从无穷小到极限,再到微积分定义的真正确立,经历了几代人几个世纪的努力,绝非仅牛顿与莱布尼茨两人之功,而课本上所呈现的永远只是冰山一角。

1.2、导数

    设有定义域和取值都在实数域中的函数

数据挖掘中所需的概率论与数理统计知识(上)

。若

数据挖掘中所需的概率论与数理统计知识(上)

在点

数据挖掘中所需的概率论与数理统计知识(上)

的某个邻域内有定义,则当自变量

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

处取得增量 

数据挖掘中所需的概率论与数理统计知识(上)

(点 

数据挖掘中所需的概率论与数理统计知识(上)

仍在该邻域内)时,相应地函数

数据挖掘中所需的概率论与数理统计知识(上)

取得增量

数据挖掘中所需的概率论与数理统计知识(上)

;如果

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

之比当

数据挖掘中所需的概率论与数理统计知识(上)

时的极限存在,则称函数

数据挖掘中所需的概率论与数理统计知识(上)

在点

数据挖掘中所需的概率论与数理统计知识(上)

处可导,并称这个极限为函数

数据挖掘中所需的概率论与数理统计知识(上)

在点

数据挖掘中所需的概率论与数理统计知识(上)

处的导数,记为

数据挖掘中所需的概率论与数理统计知识(上)

。     即:

数据挖掘中所需的概率论与数理统计知识(上)

    也可记为:

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

1.3、微分

    设函数

数据挖掘中所需的概率论与数理统计知识(上)

在某区间

数据挖掘中所需的概率论与数理统计知识(上)

内有定义。对于

数据挖掘中所需的概率论与数理统计知识(上)

内一点

数据挖掘中所需的概率论与数理统计知识(上)

,当

数据挖掘中所需的概率论与数理统计知识(上)

变动到附近的

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

也在此区间内)时。如果函数的增量

数据挖掘中所需的概率论与数理统计知识(上)

可表示为 

数据挖掘中所需的概率论与数理统计知识(上)

(其中

数据挖掘中所需的概率论与数理统计知识(上)

是不依赖于

数据挖掘中所需的概率论与数理统计知识(上)

的常数),而

数据挖掘中所需的概率论与数理统计知识(上)

是比

数据挖掘中所需的概率论与数理统计知识(上)

高阶的无穷小,那么称函数

数据挖掘中所需的概率论与数理统计知识(上)

在点

数据挖掘中所需的概率论与数理统计知识(上)

是可微的,且

数据挖掘中所需的概率论与数理统计知识(上)

称作函数在点

数据挖掘中所需的概率论与数理统计知识(上)

相应于自变量增量

数据挖掘中所需的概率论与数理统计知识(上)

的微分,记作

数据挖掘中所需的概率论与数理统计知识(上)

,即

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

的线性主部。通常把自变量

数据挖掘中所需的概率论与数理统计知识(上)

的增量

数据挖掘中所需的概率论与数理统计知识(上)

称为自变量的微分,记作

数据挖掘中所需的概率论与数理统计知识(上)

,即

数据挖掘中所需的概率论与数理统计知识(上)

。      实际上,前面讲了导数,而微积分则是在导数

数据挖掘中所需的概率论与数理统计知识(上)

的基础上加个后缀

数据挖掘中所需的概率论与数理统计知识(上)

,即为:

数据挖掘中所需的概率论与数理统计知识(上)

1.4、积分 

    积分是微积分学与数学分析里的一个核心概念。通常分为定积分和不定积分两种。 不定积分的定义     一个函数

数据挖掘中所需的概率论与数理统计知识(上)

的不定积分,也称为原函数或反导数,是一个导数等于

数据挖掘中所需的概率论与数理统计知识(上)

的函数

数据挖掘中所需的概率论与数理统计知识(上)

,即

数据挖掘中所需的概率论与数理统计知识(上)

    不定积分的有换元积分法,分部积分法等求法。 定积分的定义     直观地说,对于一个给定的正实值函数

数据挖掘中所需的概率论与数理统计知识(上)

在一个实数区间

数据挖掘中所需的概率论与数理统计知识(上)

上的定积分

数据挖掘中所需的概率论与数理统计知识(上)

    定积分与不定积分区别在于不定积分便是不给定区间,也就是说,上式子中,积分符号没有a、b。下面,介绍定积分中值定理。     如果函数f(x)在闭区间[a,b]上连续, 则在积分区间[a,b]上至少存在一个点,

数据挖掘中所需的概率论与数理统计知识(上)

 使下式成立:

数据挖掘中所需的概率论与数理统计知识(上)

牛顿-莱布尼茨公式     这个公式便叫积分中值公式。接下来,咱们讲介绍微积分学中最重要的一个公式:牛顿-莱布尼茨公式。      如果函数F (x)是连续函数f(x)在区间[a, b]上的一个原函数, 则

数据挖掘中所需的概率论与数理统计知识(上)

,此公式称为牛顿-莱布尼茨公式, 也称为微积分基本公式。这个公式由此便打通了原函数与定积分之间的联系,它表明:一个连续函数在区间[a, b]上的定积分等于它的任一个原函数在区间[a, b]上的增量,如此,便给定积分提供了一个有效而极为简单的计算方法,大大简化了定积分的计算手续。     下面,举个例子说明如何通过原函数求取定积分。如要计算

数据挖掘中所需的概率论与数理统计知识(上)

,由于

数据挖掘中所需的概率论与数理统计知识(上)

数据挖掘中所需的概率论与数理统计知识(上)

的一个原函数,所以

数据挖掘中所需的概率论与数理统计知识(上)

1.5、偏导数

    对于二元函数z = f(x,y) 如果只有自变量x 变化,而自变量y固定 这时它就是x的一元函数,这函数对x的导数,就称为二元函数z = f(x,y)对于x的偏导数。

    定义  设函数z = f(x,y)在点(x0,y0)的某一邻域内有定义,当y固定在y0而x在x0处有增量

数据挖掘中所需的概率论与数理统计知识(上)

时,相应地函数有增量

数据挖掘中所需的概率论与数理统计知识(上)

    如果极限

数据挖掘中所需的概率论与数理统计知识(上)

    存在,则称此极限为函数z = f(x,y)在点(x0,y0)处对 x 的偏导数,记作:

数据挖掘中所需的概率论与数理统计知识(上)

    例如

数据挖掘中所需的概率论与数理统计知识(上)

。类似的,二元函数对y求偏导,则把x当做常量。

第二节、离散.连续.多维随机变量及其分布

2.1、几个基本概念点

(一)样本空间

         定义:随机试验E的所有结果构成的集合称为E的 样本空间,记为S={e},

        称S中的元素e为样本点,一个元素的单点集称为基本事件.

(二)条件概率

  1. 条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
  2. 联合概率表示两个事件共同发生的概率。A与B的联合概率表示为
    数据挖掘中所需的概率论与数理统计知识(上)
    或者
    数据挖掘中所需的概率论与数理统计知识(上)
  3. 边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。 

 在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中,我们可以得出P(A|B) = |A∩B|/|B|分子、分母都除以|Ω|得到

数据挖掘中所需的概率论与数理统计知识(上)

    有时候也称为后验概率。     同时,P(A|B)与P(B|A)的关系如下所示:

数据挖掘中所需的概率论与数理统计知识(上)
    。 

(三)全概率公式和贝叶斯公式

    1、全概率公式     假设{ Bn : n = 1, 2, 3, ... } 是一个概率空间的有限或者可数无限的分割,且每个集合Bn是一个可测集合,则对任意事件A有全概率公式:

数据挖掘中所需的概率论与数理统计知识(上)

    又因为

数据挖掘中所需的概率论与数理统计知识(上)

    所以,此处Pr(A | B)是B发生后A的条件概率,所以全概率公式又可写作:

数据挖掘中所需的概率论与数理统计知识(上)

     在离散情况下,上述公式等于下面这个公式:

数据挖掘中所需的概率论与数理统计知识(上)

。但后者在连续情况下仍然成立:此处N是任意随机变量。这个公式还可以表达为:"A的先验概率等于A的后验概率的先验期望值。      2、贝叶斯公式     贝叶斯定理(Bayes' theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。

    通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。     如此篇blog所述“ 据维基百科上的介绍,贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。

数据挖掘中所需的概率论与数理统计知识(上)

   如上所示,其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:

  • P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。
  • P(A|B)是已知B发生后A的条件概率(直白来讲,就是先有B而后=>才有A),也由于得自B的取值而被称作A的后验概率。
  • P(B|A)是已知A发生后B的条件概率(直白来讲,就是先有A而后=>才有B),也由于得自A的取值而被称作B的后验概率。
  • P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

    按这些术语,Bayes定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。另外,比例P(B|A)/P(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:后验概率 = 标准相似度*先验概率。”     综上,自此便有了一个问题,如何从从条件概率推导贝叶斯定理呢?

     根据条件概率的定义,在事件B发生的条件下事件A发生的概率是

数据挖掘中所需的概率论与数理统计知识(上)

    同样地,在事件A发生的条件下事件B发生的概率

数据挖掘中所需的概率论与数理统计知识(上)

     整理与合并这两个方程式,我们可以找到

数据挖掘中所需的概率论与数理统计知识(上)

     这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,我们可以得到贝叶斯 定理:

数据挖掘中所需的概率论与数理统计知识(上)

2.2、随机变量及其分布

2.2.1、离散型随机变量的定义

    定义:取值至多可数的随机变量为离散型的随机变量。概率分布(分布律)为

数据挖掘中所需的概率论与数理统计知识(上)

    且

数据挖掘中所需的概率论与数理统计知识(上)

(一)(0-1)分布

     若X的分布律为:

数据挖掘中所需的概率论与数理统计知识(上)

     同时,p+q=1,p>0,q>0,则则称X服从参数为p的0-1分布,或两点分布。     此外,(0-1)分布的分布律还可表示为:

数据挖掘中所需的概率论与数理统计知识(上)

    或

数据挖掘中所需的概率论与数理统计知识(上)

    我们常说的抛硬币实验便符合此(0-1)分布。

(二)、二项分布

    二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两个可能的结果:正面,反面,概率各占1/2。

    设A在n重贝努利试验中发生X次,则

数据挖掘中所需的概率论与数理统计知识(上)

并称X服从参数为p的二项分布,记为:

数据挖掘中所需的概率论与数理统计知识(上)

    与此同时,

数据挖掘中所需的概率论与数理统计知识(上)

(三)、泊松分布(Poisson分布)

    若随机变量X的概率分布律为

数据挖掘中所需的概率论与数理统计知识(上)

称X服从参数为λ的泊松分布,记为:

数据挖掘中所需的概率论与数理统计知识(上)

    有一点提前说一下,泊松分布中,其数学期望与方差相等,都为参数λ。 

2.2.2、随机变量的分布函数

    实际中,对于非离散型随机变量X而言,其所有可能的值一一列举出来,故其也就不能像离散型随机变量那般可以用分布律来描述它,那怎么办呢?既然无法研究其全部,那么我们可以转而去研究随机变量所取的值在一个区间(x1,x2] 的概率:P{x1 < X <=x2 },同时注意P{x1 < X <=x2 } = P{X <=x2} - P{X <=x1},故要求P{x1 < X <=x2 } ,我们只需求出P{X <=x2} 和 P{X <=x1} 即可。     针对随机变量X,对应变量x,则P(X<=x) 应为x的函数。如此,便引出了分布函数的定义。     定义:随机变量X,对任意实数x,称函数F(x) = P(X <=x ) 为X 的概率分布函数,简称分布函数。     F(x)的几何意义如下图所示:

数据挖掘中所需的概率论与数理统计知识(上)

    且对于任意实数x1,x2(x1<x2),有P{x1<X<=x2} = P{X <=x2} - P{X <= x1} = F(x2) - F(x1)。     同时,F(X)有以下几点性质:

数据挖掘中所需的概率论与数理统计知识(上)

2.2.3、连续型随机变量及其概率密度

    定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x,有:

数据挖掘中所需的概率论与数理统计知识(上)

     则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。f(x)的性质如下图所示:

数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)

    接下来,介绍三种连续型随机变量的分布,由于均匀分布及指数分布比较简单,所以,一图以概之,下文会重点介绍正态分布。 (一)、均匀分布     若连续型随机变量X具有概率密度

数据挖掘中所需的概率论与数理统计知识(上)

    则称X 在区间(a,b)上服从均匀分布,记为X~U(a,b)。

数据挖掘中所需的概率论与数理统计知识(上)

    易知,f(x) >= 0,且其期望值为(a + b)/ 2。 (二)、指数分布     若连续型随机变量X 的概率密度为

数据挖掘中所需的概率论与数理统计知识(上)

    其中λ>0为常数,则称X服从参数为λ的指数分布。记为

数据挖掘中所需的概率论与数理统计知识(上)

(三)、正态分布      OK,重头戏来了。     若随机变量

数据挖掘中所需的概率论与数理统计知识(上)

服从一个位置参数为

数据挖掘中所需的概率论与数理统计知识(上)

、尺度参数为

数据挖掘中所需的概率论与数理统计知识(上)

的概率分布,记为: 

数据挖掘中所需的概率论与数理统计知识(上)

    则其概率密度函数为

数据挖掘中所需的概率论与数理统计知识(上)

    我们便称这样的分布为正态分布或高斯分布,记为:

数据挖掘中所需的概率论与数理统计知识(上)

    正态分布的数学期望值或期望值等于位置参数

数据挖掘中所需的概率论与数理统计知识(上)

,决定了分布的位置;其方差

数据挖掘中所需的概率论与数理统计知识(上)

的开平方,即标准差

数据挖掘中所需的概率论与数理统计知识(上)

等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。它有以下几点性质,如下图所示:

数据挖掘中所需的概率论与数理统计知识(上)

    正态分布的概率密度曲线则如下图所示:

数据挖掘中所需的概率论与数理统计知识(上)

    当固定尺度参数

数据挖掘中所需的概率论与数理统计知识(上)

,改变位置参数

数据挖掘中所需的概率论与数理统计知识(上)

的大小时,f(x)图形的形状不变,只是沿着x轴作平移变换,如下图所示:

数据挖掘中所需的概率论与数理统计知识(上)

    而当固定位置参数

数据挖掘中所需的概率论与数理统计知识(上)

,改变尺度参数

数据挖掘中所需的概率论与数理统计知识(上)

的大小时,f(x)图形的对称轴不变,形状在改变,越小,图形越高越瘦,越大,图形越矮越胖。如下图所示:

数据挖掘中所需的概率论与数理统计知识(上)

    故有咱们上面的结论,在正态分布中,称μ为位置参数(决定对称轴位置),而 σ为尺度参数(决定曲线分散性)。同时,在自然现象和社会现象中,大量随机变量服从或近似服从正态分布。     而我们通常所说的标准正态分布是位置参数

数据挖掘中所需的概率论与数理统计知识(上)

, 尺度参数

数据挖掘中所需的概率论与数理统计知识(上)

的正态分布,记为:

数据挖掘中所需的概率论与数理统计知识(上)

    标准正态分布如何由正态分布得来呢?下图可以说明之:

数据挖掘中所需的概率论与数理统计知识(上)

    OK,相信,你我可以想象得到,我们现在眼前所看到的正态分布曲线虽然看上去很美,但数学史上任何一个定理的发明几乎都不可能一蹴而就,很多往往经历了几代人的持续努力。因为在科研上诸多观念的革新和突破是有着很多的不易的,或许某个定理在某个时期由某个人点破了,现在的我们看来一切都是理所当然,但在一切没有发现之前,可能许许多多的顶级学者毕其功于一役,耗尽一生,努力了几十年最终也是无功而返。

数据挖掘中所需的概率论与数理统计知识(上)

     如你所见,现在诸如概率论与数理统计的教材上,一上来介绍正态分布,然后便给出其概率密度分布函数,却从来没有说明这个分布函数是通过什么原理推导出来的。如此,可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少。     本文第二节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱,包括其与下文中将介绍的中心极限定理和最小二乘法的联系。

2.2.4、各种分布的比较

    上文中,从(0-1)分布,泊松分布,二项分布,讲到了均匀分布,指数分布,正态分布,那这么多分布,其各自的期望.方差( 期望方差的概念下文将予以介绍)都是多少呢?虽说,还有不少分布上文尚未介绍,不过在此,提前总结下,如下两图所示( 摘自盛骤版的概率论与数理统计一书后的附录中):

数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)

    本文中,二维.多维随机变量及其分布不再论述。

第三节、从数理统计简史中看正态分布的历史由来

    本节将结合数理统计学简史一书,从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题,有详有略,其中,重点阐述正态分布的历史由来。

3.1、正态分布的定义

    上文中已经给出了正态分布的相关定义,咱们先再来回顾下。如下两图所示( 来源:大嘴巴漫谈数据挖掘):

数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)

    相信,经过上文诸多繁杂公式的轰炸,读者或有些许不耐其烦,咱们接下来讲点有趣的内容:历史。下面,咱们来结合数理统计简史一书,即正态分布的前世今生系列,从古至今论述正态分布的历史由来。

3.2、早期概率论:从萌芽到推测术

3.2.1、惠更新的三个关于期望的定理

(一)惠更新的论赌博的计算     所谓概率,即指一个事件发生,一种情况出现的可能性大小的数量指标,介于0和1之间,这个概念最初形成于16世纪,说来可能令你意想不到,凡事无绝对,早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系,可以说,这些赌博活动反而推动了概率论的早期发展。     历史是纷繁多杂的,咱们从惠更斯的机遇的规律一书入手,此人指导过微积分的奠基者之一的莱布尼兹学习数学,与牛顿等人也有交往,终生未婚。如诸多历史上有名的人物一般,他们之所以被后世的人们记住,是因为他们在某一个领域的杰出贡献,这个贡献可能是提出了某一个定理或者公式,换句话来说,就是现今人们口中所说的代表作,一个意思。     而惠更新为当代人们所熟知的应该是他在《摆式时钟或用于时钟上的摆的运动的几何证明》、《摆钟》等论文中提出了物理学史上钟摆摆动周期的公式:

数据挖掘中所需的概率论与数理统计知识(上)

。  (二)创立数学期望     与此同时,惠更斯1657年发表了《论赌博中的计算》,被认为是概率论诞生的标志。同时对二次曲线、复杂曲线、悬链线、曳物线、对数螺线等平面曲线都有所研究。     《论赌博中的计算》中,惠更斯先从关于公平赌博值的一条公理出发,推导出有关数学期望的三个基本定理,如下述内容所示:

  • 公理:每个公平博弈的参与者愿意拿出经过计算的公平赌注冒险而不愿拿出更多的数量。即赌徒愿意押的赌注不大于其获得赌金的数学期望数。

    对这一公理至今仍有争议。所谓公平赌注的数额并不清楚,它受许多因素的影响。但惠更斯由此所得关于数学期望的3 个命题具有重要意义。这是数学期望第一次被提出,由于当时概率的概念还不明确,后被拉普拉斯( Laplace ,1749 —1827) 用数学期望来定义古典概率。在概率论的现代表述中,概率是基本概念,数学期望则是二级概念,但在历史发展过程中却顺序相反。

关于数学期望的三个命题为:

  • 命题1  若在赌博中获得赌金a 和b 的概率相等,则其数学期望值为( a + b)/2;
  • 命题2  若在赌博中获得赌金a 、b 和c 的概率相等,则其数学期望值为( a + b + c)/3;
  • 命题3  若在赌博中分别以概率p 和q ( p ≥0 , q ≥0 , p + q = 1) 获得赌金a 和b ,则获得赌金的数学期望值为pa + qb。

    这些今天看来都可作为数学期望定义,不准确的说,数学期望来源于取平均值。同时,根据上述惠更斯的3个命题不难证明:若某人在赌博中分别以概率p1...,pk(p1+..+pk=1)分别赢得a1,..ak元,那么其期望为p1a1+...+pkak,这与第一节中关于离散型随机变量的期望的定义完全一致。     但惠更新关于概率论的讨论局限于赌博中,而把概率论由局限于对赌博机遇的讨论扩展出去的则得益于伯努利,他在惠更新的论赌博中的计算一书出版的56年,即1973年出版了划时代的著作:推测术。伯努利在此书中,不仅对惠更斯的关于掷骰子等赌博活动中出现的额各种情况的概率进行了计算,而且还提出了著名的“大数定律”,这个定律在历史上甚至到今天,影响深远,后续诸多的统计方法和理论都是建立在大数定律的基础上。 (三) 伯努利的大数定律及其如何而来     同样,咱们在读中学的时候,之所以记住了伯努利这个人,恐怕是因为物理课上,老师所讲的伯努利方程

数据挖掘中所需的概率论与数理统计知识(上)

C,( C为常量)。我当时的物理老师叫刘新见,记得他在讲伯努利方程的时候,曾开玩笑说,“’伯努利‘好记好记,‘白努力‘嘛”。          当然,伯努利的贡献不仅在此,而在于他的大数定律。那何谓伯努利大数定律呢?     设在n

次独立重复试验中,事件X

发生的次数为

数据挖掘中所需的概率论与数理统计知识(上)

。事件

X在每次试验中发生的概率为

P。则对任意正数

,下式成立:

数据挖掘中所需的概率论与数理统计知识(上)

    定理表明事件发生的频率依概率收敛于事件的概率。定理以严格的数学形式表达了频率的稳定性。就是说当n很大时,事件发生的频率于概率有较大偏差的可能性很小。      这个定理如何而来的呢?     咱们来看一个简单的袋中抽球的模型,袋中有a个白球,b个黑球,则从袋中取出白球的概率为p=a/(a+b),有放回的充袋中抽球N次( 每次抽取时保证袋中a+b个球的每一个都有同等机会被抽出),记得抽到的白球的次数为X,然后以X/N 这个值去估计p,这个估计方法至今仍是数理统计学中最基本的方法之一。     伯努利试图证明的是:用X/N 估计p 可以达到事实上的确定性,即:任意给定两个数 ε>0和 η>0,取足够大的抽取次数N,使得事件

数据挖掘中所需的概率论与数理统计知识(上)

的概率不超过 η,这意思是

数据挖掘中所需的概率论与数理统计知识(上)

,表面估计误差未达到制定的接近程度 η。     换句话说,我们需要证明的是当N充分无限大时,X/N 无限逼近于p,用公式表达即为:

数据挖掘中所需的概率论与数理统计知识(上)

N趋于无穷大。     尽管现在我们看来,这个结论毫无疑问是理所当然的,但直到1909年才有波莱尔证明。此外,此伯努利大数定律与我们常见的契比雪夫不等式有异曲同工之妙。然常用的大数定律除了伯努利大数定律之外,还有辛钦大数定律、柯尔莫哥洛夫强大数定律和重对数定律等定律。下文将重点介绍辛苦钦大数定律,这里稍微提下,如下图所示。

数据挖掘中所需的概率论与数理统计知识(上)

    在1733年,棣莫弗发展了用正态分布逼近二项分布的方法。

3.3、棣莫弗的二项概率逼近

    同上文中的惠更新,伯努利一样,人们熟悉棣莫弗,想必是因为注明的棣莫弗公式,如下:

数据挖掘中所需的概率论与数理统计知识(上)

    据数理统计学简史一书上的说明,棣莫弗之所以投身到二项概率的研究,非因伯努利之故,而又是赌博问题( 赌博贡献很大丫哈)。有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B两人在赌场里赌博,A,B各自的获胜概率是p和q=1−p,赌n局,若A赢的局数X>np,则A付给赌场X−np元,否则B付给赌场np−X元。问赌场挣钱的期望值是多少?按定义可知,此期望值为:

数据挖掘中所需的概率论与数理统计知识(上)

    上式的b(N,平,i)为二项概率,棣莫弗最终在Np为整数的条件下得到:

数据挖掘中所需的概率论与数理统计知识(上)

         当m=N/2时,N趋于无穷,

数据挖掘中所需的概率论与数理统计知识(上)

    也就是说上述问题的本质上是上文第一节中所讲的一个二项分布。虽然从上述公式可以集结此问题,但在N很大时,

数据挖掘中所需的概率论与数理统计知识(上)

计算不易,故棣莫弗想找到一个更方便于计算的近似公式。

    棣莫弗后来虽然做了一些计算并得到了一些近似结果,但是还不够,随后有人讲棣莫弗的研究工作告诉给了斯特林,于是,便直接催生了在数学分析中必学的一个重要公式斯特林公式( 斯特林公式最初发表于1730年,而后棣莫弗改进了斯特林公式):

数据挖掘中所需的概率论与数理统计知识(上)
(其中,m= N/2)

1733年,棣莫弗有了一个决定性意义的举动,他证明了当N趋于去穷时,有下列式子成立:

数据挖掘中所需的概率论与数理统计知识(上)

    不要小瞧了这个公式。当它与上面给出的这个公式

数据挖掘中所需的概率论与数理统计知识(上)

结合后,便有了:

数据挖掘中所需的概率论与数理统计知识(上)

    根据上面式子,近似地以定积分代替和,得到下式:

数据挖掘中所需的概率论与数理统计知识(上)

    不知道,当读者读到这里的时候,是否从上式看出了些许端倪,此式可隐藏了一个我们习以为常却极其重要的概念。OK,或许其形式不够明朗,借用的式子转化下:

数据挖掘中所需的概率论与数理统计知识(上)

    没错,正态分布的概率密度函数在上述的积分公式中出现了,于此,我们得到了一个结论,原来 二项分布的极限分布便是正态分布。与此同时,还引出了统计学史上占据重要地位的中心极限定理。     棣莫弗-拉普拉斯定理:设随机变量Xn(n=1,2...)服从参数为p的二项分布,则对任意的x,恒有下式成立:

数据挖掘中所需的概率论与数理统计知识(上)

    我们便称此定理为中心极限定理,当然,中心极限定理总共有3种表达方式,下文第3节中会详细加以说明。          还没完,最终,在1744年,棣莫弗证明了:

数据挖掘中所需的概率论与数理统计知识(上)

    或许,从上面式子,你还没有看出什么蹊跷。但我们可以这样理解:若取c充分大,则对足够大的N,事件

数据挖掘中所需的概率论与数理统计知识(上)

|的概率可任意接近于1,由于

数据挖掘中所需的概率论与数理统计知识(上)

,故对于任意给定的 ε>0, 有下式成立:

数据挖掘中所需的概率论与数理统计知识(上)

    而这就是上文中所讲的伯努利大数定律。我之所以不厌其烦的要论述这个棣莫弗的二项概率逼近的相关过程,是想说明一点:各个定理.公式彼此之前是有着紧密联系的,要善于发现其中的各种联系。     同时,还有一个问题,相信读者已经意识到了,就是咱们的概率论与数理统计教材讲正态分布的时候,一上来便给出正态分布的概率密度函数,然后告诉我们说,符合这个概率密度函数的称为正态分布,紧接着阐述和证明相关性质,最后说了一句:”在自然现象和社会现象中,大量随机变量都服从或近似服从正态分布,如人的身高,某零件长度的误差,海洋波浪的高度“,然后呢?然后什么也没说了。连正态分布中最基本的两个参数为

数据挖掘中所需的概率论与数理统计知识(上)

、和

数据挖掘中所需的概率论与数理统计知识(上)

的的意义都不告诉我们( 后续第三节会说明,位置参数

数据挖掘中所需的概率论与数理统计知识(上)

即为数学期望,尺度参数为

数据挖掘中所需的概率论与数理统计知识(上)

即为方差)。     然后,教材上便开始讲数学期望,方差等概念,最后才讲到中心极限定理。或许在读者阅读本文之前,这些定理的先后发明顺序才得以知晓。如 rickjin所言:’‘ 学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说:“科学的发现很少会像门外汉所想象的一样,按照直接了当合乎逻辑的方式进行的。’’‘「 注:本3.3小节主要整编自数理统计简史,参考rickjin所写的正态分布的前世今生系列」

3.4、贝叶斯方法

    前面,介绍了惠更斯、伯努利和棣莫弗等人的重大成果,无疑在这些重要发明中,二项分布都占据着举重轻重的地位。这在早期的概率统计史当中,也是唯一一个研究程度很深的分布。但除了伯努利的大数定律及棣莫弗的二项逼近的研究成果外,在18世纪中叶,为了解决二项分布概率的估计问题,出现了一个影响极为广泛的贝叶斯方法,贝叶斯方法经过长足的发展,如今已经成为数理统计学中的两个主要学派之一:贝叶斯学派,牢牢占据数理统计学领域的半壁江山。     据数理统计学简史一书,托马斯.贝叶斯,此人在18世纪上半叶的欧洲学术界,并不算得上很知名,在提出贝叶斯定理之前,也未发表过片纸只字的科学论著,套用当今的话来说,他便是活生生一个民间学术屌丝。

数据挖掘中所需的概率论与数理统计知识(上)

    未发表过任何科学著作,但一个人如果热爱研究,喜好学术的话,必找人交流。于此,诸多重大发明定理都出现在学者之间的一些书信交流中。奇怪的是,贝叶斯这方面的书信材料也不多。或许读者读到此处,已知我意,会说这一切在他提出贝叶斯定理之后有了改变,但读者朋友只猜对了一半。     贝叶斯的确发表了一篇题为 An essay towards solving a problem in the doctrine of chances(机遇理论中一个问题的解)的遗作,此文在他发表后很长一段时间起,在学术界没有引起什么反响,直到20世纪以来,突然受到人们的重视,此文也因此成为贝叶斯学派最初的奠基石( 又一个梵高式的人物)。     有人说贝叶斯发表此文的动机是为了解决伯努利和棣莫弗未能解决的二项分布概率P的“逆概率”问题。所谓逆概率,顾名思义,就是求概率问题的逆问题:已知时间的概率为P,可由之计算某种观察结果的概率如何;反过来,给定了观察结果,问由之可以对概率P作何推断。也就是说,正概率是由原因推结果,称之为概率论;而逆概率是结果推原因,称之为数理统计。     由于本文中,重点不在贝叶斯定理,且此文 从决策树学习谈到贝叶斯分类算法、EM、HMM第二部分也详细介绍过了贝叶斯方法,故为本文篇幅所限,不再做过多描述。

3.5、最小二乘法,数据分析的瑞士军刀

    事实上,在成百上千的各式各样的攻击方法中,取算术平均恐怕是最广为人知使用也最为广泛的方法,因为可能一个小学生都知道使用算术平均来计算自己每天平均花了多少零花钱而以此作为向爸妈讨要零花钱的依据。而我们大多数成年人也经常把“平均说来”挂在嘴边。故此节要讲的最小二乘法其实并不高深,它的本质思想即是来源于此算术平均的方法。     不太精确的说,一部数理统计学的历史,就是从纵横两个方向对算术平均进行不断深入研究的历史,

  • 纵的方面指平均值本身,诸如伯努利及其后众多的大数定律,棣莫弗=拉普拉斯中心极限定理,高斯的正太误差理论,这些在很大程度上都可以视为对算术平均的研究成果,甚至到方差,标准差等概念也是由平均值发展而来;
  • 横的方面中最为典型的就是此最小二乘法。

    而算术平均也是解释最小二乘法的最简单的例子。使误差平方和达到最小以寻求估计值的方法,则称为最小二乘估计(当然,取平方和作为目标函数知识众多可取的方法之一,例如也可以去误差4次方或绝对值和,取平方和是人类千百年实践中被证实行之有效的方法,因此被普遍采用)。      何谓最小二乘法?实践中,常需寻找两变量之间的函数关系,比如测定一个刀具的磨损速度,也就是说,随着使用刀具的次数越多,刀具本身的厚度会逐渐减少,故刀具厚度与使用时间将成线性关系,假设符合f(t)=at + b(t代表时间,f(t)代表刀具本身厚度),a,b是待确定的常数,那么a、b如何确定呢?     最理想的情形就是选取这样的a、b,能使直线y = at + b 所得到的值与实际中测量到的刀具厚度完全符合,但实际上这是不可能的,因为误差总是存在难以避免的。故因误差的存在,使得理论值与真实值存在偏差,为使偏差最小通过偏差的平方和最小确定系数a、b,从而确定两变量之间的函数关系f(t)= at + b。     这种通过偏差的平方和为最小的条件来确定常数a、b的方法,即为最小二乘法。最小二乘法的一般形式可表述为:

数据挖掘中所需的概率论与数理统计知识(上)

    最小二乘法是如何发明的呢?据史料记载,最小二乘法最初是由法国数学家勒让德于1805年发明的。那勒让德发明它的动机来源于哪呢?     18世纪中叶,包括勒让德、欧拉、拉普拉斯、高斯在内的许多天文学家和数学家都对天文学上诸多问题的研究产生了浓厚的兴趣。比如以下问题:

  • 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
  • 勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
  • 海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

    这些问题都可以用如下数学模型描述:我们想估计的量是β0,⋯,βp,另有若干个可以测量的量x1,⋯,xp,y,这些量之间有线性关系

数据挖掘中所需的概率论与数理统计知识(上)

    如何通过多组观测数据求解出参数β0,⋯,βp呢?欧拉和拉普拉斯采用的都是求解线性方程组的方法。

数据挖掘中所需的概率论与数理统计知识(上)

    但是面临的一个问题是,有n组观测数据,p+1个变量,如果n>p+1,则得到的线性矛盾方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把n个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把n个方程的方程组化为p+1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。

    以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所以所有方程的累积误差为:

数据挖掘中所需的概率论与数理统计知识(上)

    我们求解出导致累积误差最小的参数即可。

数据挖掘中所需的概率论与数理统计知识(上)

    上面我们已经看到,是勒让德最初发明的最小二乘法,那为何历史上人们常常把最小二乘法的发明与高斯的名字联系起来呢?这是因为在1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,即为高斯-马尔可夫定理。也就是说勒让德最初提出了最小二乘法,而却是高斯让最小二乘法得以巩固而影响至今。且高斯对最小二乘法的最大贡献在于他是建立在正太误差分布的理论基础之上的。     包括拉普拉斯用他的中心极限定理定理也可以推导出最小二乘法。可能这些说的还是含糊其辞,说白了,就是诸多问题包括本节所讲的最小二乘法中,这个 观测值与理论值的误差服从正态分布。高斯后续也导出了误差服从正态分布的结论「 注:本3.5小节主要整编自数理统计简史及rickjin所写的正态分布的前世今生系列」。

3.6、误差分布曲线的建立

3.6.1、拉普拉斯分布

    十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?     伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

  • 误差是对称分布的;
  • 大的误差出现频率低,小的误差出现频率高。

    用数学的语言描述,也就是说误差分布函数f(x)关于0对称分布,概率密度随|x|增加而减小,这两个定性的描述都很符合常识。     许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。设真值为θ,而x1,⋯,xn为n次测量值,每次测量的误差为ei=xi−θ,若用算术平均xˉ=(∑ni=1xi)/n去估计θ,其误差为eˉ=(∑ni=1ei)/n。Simpson证明了,对于如下的一个概率分布,

数据挖掘中所需的概率论与数理统计知识(上)

Simpson的误差态分布曲线     有这样的估计:P(|eˉ|<x)≥P(|e1|<x).     也就是说,|eˉ|相比于|e1|取小值的机会更大。辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

    在1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假定误差分布函数f(x)满足如下性质:

数据挖掘中所需的概率论与数理统计知识(上)

    由此最终求得的分布函数为

数据挖掘中所需的概率论与数理统计知识(上)

    这个概率密度函数现在被称为拉普拉斯分布。

数据挖掘中所需的概率论与数理统计知识(上)

    以这个函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计算过于复杂,最终没能给出什么有用的结果,故拉普拉斯最终还是没能搞定误差分布的问题。

3.6.2、高斯的工作对拉普拉斯的启发

    1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

数据挖掘中所需的概率论与数理统计知识(上)

    高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

    设真值为θ,而x1,⋯,xn为n次独立测量值,每次测量的误差为ei=xi−θ,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为

数据挖掘中所需的概率论与数理统计知识(上)

但是高斯不采用贝叶斯的推理方式,而是直接取L(θ)达到最小值的θˆ=θˆ(x1,⋯,xn)作为θ的估计值,即

数据挖掘中所需的概率论与数理统计知识(上)

     现在我们把L(θ)称为样本的似然函数,而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。

    高斯接下来的想法出人意料,他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测:

数据挖掘中所需的概率论与数理统计知识(上)

然后高斯去找误差密度函数f以迎合这一点。即寻找这样的概率分布函数f,使得极大似然估计正好是算术平均θˆ=xˉ。通过应用数学技巧求解这个函数f,高斯证明(证明不难,后续给出)了所有的概率密度函数中,唯一满足这个性质的就是

数据挖掘中所需的概率论与数理统计知识(上)

    就这样,正态分布的密度函数N(0,σ2)被高斯给解出来了!

    进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei(见前面的公式(3),有ei∼N(0,σ2),则(e1,⋯,en)的联合概率分布为

数据挖掘中所需的概率论与数理统计知识(上)

    要使得这个概率最大,必须使得∑ni=1e2i取最小值,这正好就是最小二乘法的要求。     如你所见,相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。     但事情还没完,高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?     受高斯启发,拉普拉斯将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理所当然是高斯分布。而20世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。     至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用「 注:本3.6小节主要整编自rickjin所写的正态分布的前世今生系列,参考数理统计简史」。

第四节、从数学期望、方差、协方差到中心极限定理

4.1、数学期望、方差、协方差

    限于本文篇幅所限,就不再像上面那样一一列举各种概念定理,直接上图吧( 来源:大嘴巴满谈数据挖掘):

数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)
数据挖掘中所需的概率论与数理统计知识(上)

4.2、中心极限定理

    先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。1776年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值

令 Sn=X1+X2+⋯+Xn, 那么

数据挖掘中所需的概率论与数理统计知识(上)

    在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年的名著《概率分析理论》中给出了中心极限定理的一般描述:[定理Laplace,1812]设 ei(i=1,⋯n)为独立同分布的测量误差,具有均值μ和方差σ2。如果λ1,⋯,λn为常数,a>0,则有

数据挖掘中所需的概率论与数理统计知识(上)

    这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,在现在大学本科的教材上,包括包括本文主要参考之一盛骤版的概率论与数理统计上,通常给出的是中心极限定理的一般形式:      [Lindeberg-Levy中心极限定理] 设X1,⋯,Xn独立同分布,且具有有限的均值μ和方差σ2,则在n→∞时,有

数据挖掘中所需的概率论与数理统计知识(上)

    多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。

数据挖掘中所需的概率论与数理统计知识(上)

    概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便X1,⋯,Xn并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终归宿仍然是正态分布。     在正态分布、中心极限定理的确立之下,20世纪之后,统计学三大分布χ2分布、t分布、F分布也逐步登上历史舞台:

数据挖掘中所需的概率论与数理统计知识(上)

..

参考文献及推荐阅读

  1. 高等数学第六版上下册,同济大学数学系编;
  2. 微积分概念发展史;
  3. 概率论与数理统计,盛骤等编;
  4. 数理统计学简史,陈希孺院士著;
  5. rickjin,正态分布的前后今生:http://t.cn/zlH3Ygc ;
  6. 大嘴巴漫谈数据挖掘;
  7. wikipedia上一堆概念;
  8. ....

继续阅读