机器学习有关的概率论与信息论基本知识

本文内容参考机器学习相关的概率论和信息论基础知识

概率论是很多机器学习的算法的构建模型的基础，信息论可以描述随机事件的信息量也可以计算两种概率分布的差异。

@机器学习有关的概率论和信息论基础

概率论

概率；随机事件；随机变量；

1.某次试验具有偶然性；相同条件下的大量重复实验具有规律性。

2.一个随机试验的可能结果（称为基本事件）的全体组成一个基本空间Ω。

随机变量X是定义在基本空间Ω上的取值为实数的函数，即基本空间Ω中每一个点，也就是每个基本事件都有实轴上的点与之对应。

概率质量函数；概率密度函数；

1.离散随机变量用用概率质量函数（PMF, probability mass function）（通常表示为P）定义其概率分布。P(X=x1)

2.随机变量能够在一个间隔中取任意值，概率密度函数（PDF，probability density function）（通常指定为p来指定其概率分布）。该区间内任何特定点的概率为0。我们通过p(x)和无限小体积δx 的乘积 p(x)δx作为概率。

概率分布函数；联合分布、边缘分布和条件分布

1.分布函数（CDF， Cumulative Distribution Function）： F(X)=P(X<x)(−∞<x<+∞) 。分布函数可以完整地描述随机变量的统计规律，并且决定随机变量的一切其他概率特征。

2.联合概率分布（joint probability distribution）：同时在多个随机变量上的概率分布。P(X=x，Y=y)，P(x,y)；

3.边缘概率分布（marginal probability distribution）：给定联合概率分布，随机变量子集上的概率分布。

P(x)=∑y P(x,y) p(x)=∫y p(x,y)dy

4.条件概率（conditional probability）：已发生其他事件的情况下计算事件的概率。P(y|x)=P(x,y)/P(x)

全概率公式；概率乘法定理；独立；条件独立；贝叶斯公式

1.全概率公式：完备事件 A

机器学习有关的概率论与信息论基本知识

2.概率乘法定理(multiplication theorem of probability)：联合状态与当前状态，以及历史状态有关，马尔可夫记忆链。

机器学习有关的概率论与信息论基本知识

3.独立：P(A)×P(B)=P(AB)

4.条件独立：P(X,Y|Z)=P(X|Z)P(Y|Z) 或P(X|Y,Z)=P(X|Z)

5.贝叶斯公式：P(A|B)=P(B|A)P(A)/P(B)

期望；方差；协方差

1.数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。概率加权平均。概率的一阶矩。

离散变量：Ex∼P[f(x)]=∑x P(x)f(x) 连续变量：Ex∼P[f(x)]=∫ p(x)f(x)dx

线性性质：Ex [af(x)+bg(x)]=aEx [f(x)]+bEx [g(x)]

2.方差：用来度量随机变量和其数学期望（即均值）之间的偏离程度。（波动性）标准差为方差的平方根。概率的二阶矩。

机器学习有关的概率论与信息论基本知识

3.协方差（Covariance）：衡量两个变量的总体误差。

机器学习有关的概率论与信息论基本知识

Pearson相关系数；大数定律（切比雪夫；伯努利；新钦大数定律；中心极限定理（独立同分布的中心极限；棣莫佛-拉普拉斯定理；不同分布的中心极限）；最大似然估计

1.Pearson相关系数（Pearson correlation coeﬃcient）:是用来衡量两个数据集合是否在一条线上面，用来衡量定距变量间的线性关系。

机器学习有关的概率论与信息论基本知识

2.大数定律(law of large numbers)：试验次数很大时所呈现的概率性质的定律，不为经验规律，在附加条件上严格证明了的定理。

1）切比雪夫

机器学习有关的概率论与信息论基本知识

结论：随着样本容量n的增加，样本平均数将接近于总体平均数。（可以依据样本平均数估计总体平均数）

注意：并未要求X1,X2,…,Xn同分布，相较于伯努利大数定律和辛钦大数定律更具一般性。

2）伯努利（频率稳定性）

机器学习有关的概率论与信息论基本知识

含义：事件A出现的频率将几乎接近于其发生的概率，即频率的稳定性。（抽样调查中用样本成数去估计总体成数）

3）新钦大数

机器学习有关的概率论与信息论基本知识

含义：用算数平均值来近似真值是合理的。

3.中心极限定理（大量随机变量近似分布正态分布）

中心极限定理指出：一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。

1）独立同分布的中心极限：

机器学习有关的概率论与信息论基本知识

2）棣莫佛-拉普拉斯定理：

机器学习有关的概率论与信息论基本知识

含义：正态分布是二项分布的极限分布。

3）不同分布的中心极限

定理说明：随机变量如果是有大量独立的而且均匀的随机变量相加而成，那么它的分布将近似于正态分布。

4.最大似然估计

最大似然法明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树。

概率分布

概率分布，是指用于表述随机变量取值的概率规律。随机变量的可能取值及取得对应值的概率。

伯努利分布；二项分布；

1.伯努利分布：最简单的概率分布，单个二进制随机变量上的离散分布。P(x=1)=ϕ ，P(x=0)=1−ϕ。

机器学习有关的概率论与信息论基本知识

2.二项分布：n个独立的伯努利分布；

正态分布（一维正态分布；标准正态分布)

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution）

1.一维正态分布：

机器学习有关的概率论与信息论基本知识

2.标准正态分布：μ=0,σ=1

机器学习有关的概率论与信息论基本知识

经验分布/数据生成分布

经验分布（empirical distribution）或数据生成分布（data generating distribution）近似想要学习的真实基础分布。

1.数据离散，每个数据点的概率为训练过程中的频率。

机器学习有关的概率论与信息论基本知识

2.数据连续，引入冲激函数：

机器学习有关的概率论与信息论基本知识

信息论

子信息/信息量

自信息（Self-information），又称信息量，信息含量的多少。

I(x)=−logP(x)；

底为2，那么信息量的单位是bit；如果底为e，那么信息量的单位是nats。

香农熵/信息熵

**香农熵，又称信息熵，**表示来自概率分布P的所有事件x含有的信息量的期望值，香农熵有效地衡量了概率分布中包含的不确定性。

机器学习有关的概率论与信息论基本知识

相对熵/KL散度(熵的概念扩展到两个分布）

相对熵，又被称为KL散度（Kullback-Leibler divergence）或信息增益，是两个概率分布间差异的非对称性度量。等价于两个概率分布的信息熵差值：

机器学习有关的概率论与信息论基本知识

JS散度

JS散度（Jensen-Shannon divergence）：度量两个概率分布的差异性。

机器学习有关的概率论与信息论基本知识

交叉熵

也是衡量概率分布差异的手段，概率分布P和Q的交叉熵等于概率分布P的熵与概率分布P和Q的散度。

机器学习有关的概率论与信息论基本知识

逐点相互信息（点向互信息）

点向互信息（PMI，Pointwise mutual information）：

机器学习有关的概率论与信息论基本知识

互信息（MI）是PMI的期望值：

机器学习有关的概率论与信息论基本知识

互信息矩阵MI来表征学习出的表示（learned representations）和输出标签（output labels）之间的关联。

共轭先验分布

在贝叶斯统计中，如果后验分布与先验分布属于同类，则先验分布与后验分布被称为共轭分布，而先验分布被称为似然函数的共轭先验。

本质：给定贝叶斯公式，一直似然函数，如何选取先验分布，使得后验分布与先验分布具有相同的数学形式。

优点：代数上的方便性，可以直接给出后验分布的封闭形式。

所有指数家族分布都具有共轭先验。

机器学习有关的概率论与信息论基本知识

概率论

概率；随机事件；随机变量；

概率质量函数；概率密度函数；

概率分布函数；联合分布、边缘分布和条件分布

全概率公式；概率乘法定理；独立；条件独立；贝叶斯公式

期望；方差；协方差

Pearson相关系数；大数定律（切比雪夫；伯努利；新钦大数定律；中心极限定理（独立同分布的中心极限；棣莫佛-拉普拉斯定理；不同分布的中心极限）；最大似然估计

概率分布

伯努利分布；二项分布；

正态分布（一维正态分布；标准正态分布)

经验分布/数据生成分布

信息论

子信息/信息量

香农熵/信息熵

相对熵/KL散度(熵的概念扩展到两个分布）

JS散度

交叉熵

逐点相互信息（点向互信息）

共轭先验分布

继续阅读

机器之心选出2015年人工智能五大关键词

合并结果集 | 学习笔记

深度学习学习笔记——keras模型保存与读取

深度学习学习笔记——各种concatenate

深度学习学习笔记——随手写

深度学习学习笔记——keras中的verbose

吴恩达-深度学习笔记《卷积神经网络》

深度学习论文汇总（2018.6.25更新）深度学习的基础深度学习爆发：从AlexNet到Capsules深度学习中非常有用的Tricks 递归神经网络RNN 生成对抗网络GAN 迁移学习目标检测语义分割图像压缩关键点/姿态检测ReID引用链接

深度学习学习笔记——1x1卷积核作用

利用numpy实现Logistic回归模型——总结（2）内容总结：问题：通过Logistic回归模型识别猫

【学习笔记4】Convolutional Pose Mashines在FashionAI中的应用【第二弹】——我的深度学习首秀（天池FashionAI关键点挑战赛复赛篇）

【学习笔记3】Convolutional Pose Mashines在FashionAI中的应用——我的深度学习首秀

深度学习学习笔记——model.fit与model.fit_generator

keras模型h5文件转pb文件（通过save_model保存的h5模型文件）

飞桨paddlepaddle深度学习实战——学习笔记（第三章飞桨实践）第三章学习笔记