天天看点

机器学习有关的概率论与信息论基本知识

本文内容参考 机器学习相关的概率论和信息论基础知识

概率论 是很多机器学习的算法的构建模型的基础,信息论 可以描述随机事件的信息量也可以计算两种概率分布的差异。

@机器学习有关的概率论和信息论基础

概率论

概率;随机事件;随机变量;

1.某次试验具有偶然性;相同条件下的大量重复实验具有规律性。

2.一个随机试验的可能结果(称为基本事件)的全体组成一个基本空间Ω。

随机变量X是定义在基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。

概率质量函数;概率密度函数;

1.离散随机变量用用概率质量函数(PMF, probability mass function)(通常表示为P)定义其概率分布。P(X=x1)

2.随机变量能够在一个间隔中取任意值,概率密度函数(PDF,probability density function)(通常指定为p来指定其概率分布)。该区间内任何特定点的概率为0。我们通过p(x)和无限小体积δx 的乘积 p(x)δx作为概率。

概率分布函数;联合分布、边缘分布和条件分布

1.分布函数(CDF, Cumulative Distribution Function): F(X)=P(X<x)(−∞<x<+∞) 。分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。

2.联合概率分布(joint probability distribution):同时在多个随机变量上的概率分布。P(X=x,Y=y),P(x,y);

3.边缘概率分布(marginal probability distribution):给定联合概率分布,随机变量子集上的概率分布。

P(x)=∑y P(x,y) p(x)=∫y p(x,y)dy

4.条件概率(conditional probability):已发生其他事件的情况下计算事件的概率。P(y|x)=P(x,y)/P(x)

全概率公式;概率乘法定理;独立;条件独立;贝叶斯公式

1.全概率公式:完备事件 A

机器学习有关的概率论与信息论基本知识

2.概率乘法定理(multiplication theorem of probability):联合状态与当前状态,以及历史状态有关,马尔可夫记忆链。

机器学习有关的概率论与信息论基本知识

3.独立:P(A)×P(B)=P(AB)

4.条件独立:P(X,Y|Z)=P(X|Z)P(Y|Z) 或P(X|Y,Z)=P(X|Z)

5.贝叶斯公式:P(A|B)=P(B|A)P(A)/P(B)

期望;方差;协方差

1.数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。概率加权平均。概率的一阶矩。

离散变量:Ex∼P[f(x)]=∑x P(x)f(x) 连续变量:Ex∼P[f(x)]=∫ p(x)f(x)dx

线性性质:Ex [af(x)+bg(x)]=aEx [f(x)]+bEx [g(x)]

2.方差:用来度量随机变量和其数学期望(即均值)之间的偏离程度。(波动性)标准差为方差的平方根。概率的二阶矩。

机器学习有关的概率论与信息论基本知识
机器学习有关的概率论与信息论基本知识

3.协方差(Covariance):衡量两个变量的总体误差。

机器学习有关的概率论与信息论基本知识

Pearson相关系数;大数定律(切比雪夫;伯努利;新钦大数定律;中心极限定理(独立同分布的中心极限;棣莫佛-拉普拉斯定理;不同分布的中心极限);最大似然估计

1.Pearson相关系数(Pearson correlation coefficient):是用来衡量两个数据集合是否在一条线上面,用来衡量定距变量间的线性关系。

机器学习有关的概率论与信息论基本知识

2.大数定律(law of large numbers):试验次数很大时所呈现的概率性质的定律,不为经验规律,在附加条件上严格证明了的定理。

1)切比雪夫

机器学习有关的概率论与信息论基本知识

结论:随着样本容量n的增加,样本平均数将接近于总体平均数。(可以依据样本平均数估计总体平均数)

注意:并未要求X1,X2,…,Xn同分布,相较于伯努利大数定律和辛钦大数定律更具一般性。

2)伯努利(频率稳定性)

机器学习有关的概率论与信息论基本知识

含义:事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。(抽样调查中用样本成数去估计总体成数)

3)新钦大数

机器学习有关的概率论与信息论基本知识

含义:用算数平均值来近似真值是合理的。

3.中心极限定理(大量随机变量近似分布正态分布)

中心极限定理指出:一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。

1)独立同分布的中心极限:

机器学习有关的概率论与信息论基本知识

2)棣莫佛-拉普拉斯定理:

机器学习有关的概率论与信息论基本知识

含义:正态分布是二项分布的极限分布。

3)不同分布的中心极限

定理说明:随机变量如果是有大量独立的而且均匀的随机变量相加而成,那么它的分布将近似于正态分布。

4.最大似然估计

最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。

概率分布

概率分布,是指用于表述随机变量取值的概率规律。随机变量的可能取值及取得对应值的概率。

伯努利分布;二项分布;

1.伯努利分布:最简单的概率分布,单个二进制随机变量上的离散分布 。P(x=1)=ϕ ,P(x=0)=1−ϕ。

机器学习有关的概率论与信息论基本知识

2.二项分布:n个独立的伯努利分布;

正态分布(一维正态分布;标准正态分布)

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)

1.一维正态分布:

机器学习有关的概率论与信息论基本知识

2.标准正态分布:μ=0,σ=1

机器学习有关的概率论与信息论基本知识

经验分布/数据生成分布

经验分布(empirical distribution)或数据生成分布(data generating distribution)近似想要学习的真实基础分布。

1.数据离散,每个数据点的概率为训练过程中的频率。

机器学习有关的概率论与信息论基本知识

2.数据连续,引入冲激函数:

机器学习有关的概率论与信息论基本知识

信息论

子信息/信息量

自信息(Self-information),又称信息量,信息含量的多少。

I(x)=−logP(x);

底为2,那么信息量的单位是bit;如果底为e,那么信息量的单位是nats。

香农熵/信息熵

**香农熵,又称信息熵,**表示来自概率分布P的所有事件x含有的信息量的期望值,香农熵有效地衡量了概率分布中包含的不确定性。

机器学习有关的概率论与信息论基本知识

相对熵/KL散度(熵的概念扩展到两个分布)

相对熵,又被称为KL散度(Kullback-Leibler divergence)或信息增益,是两个概率分布间差异的非对称性度量。等价于两个概率分布的信息熵差值:

机器学习有关的概率论与信息论基本知识

JS散度

JS散度(Jensen-Shannon divergence):度量两个概率分布的差异性。

机器学习有关的概率论与信息论基本知识

交叉熵

也是衡量概率分布差异的手段,概率分布P和Q的交叉熵等于概率分布P的熵与概率分布P和Q的散度。

机器学习有关的概率论与信息论基本知识

逐点相互信息(点向互信息)

点向互信息(PMI,Pointwise mutual information):

机器学习有关的概率论与信息论基本知识

互信息(MI)是PMI的期望值:

机器学习有关的概率论与信息论基本知识

互信息矩阵MI来表征学习出的表示(learned representations)和输出标签(output labels)之间的关联。

共轭先验分布

在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

本质:给定贝叶斯公式,一直似然函数,如何选取先验分布,使得后验分布与先验分布具有相同的数学形式。

优点:代数上的方便性,可以直接给出后验分布的封闭形式。

所有指数家族分布都具有共轭先验。

继续阅读