天天看点

信息熵——Information Entropy

一:信息的不确定性

首先请看如下的两条信息:

  • 太阳从东边升起。
  • 提问20个问题猜出我心中正在想的东西。(没有听过这个游戏的朋友请自行度娘或者谷歌,会出现不同的版本,但具体的含义都是一样的)

第一条信息:

我们可以很确定的得出这句话的含义——太阳从东边升起,这是一条不确定性为零的信息。

第二条信息:

这是一条信息不是特别明确的信息,具有一定的不确定性,因为我们不能直接从信息中获取相应的确定信息,我们需要通过相应的手段(了解第二条信息的手段是提问)去了解更多的信息才能够得到这条信息最终想要表达的内容。

通过以上两条信息的对比,相信大家可以对信息的不确定性有一定的了解。

二:信息熵的基本介绍

信息熵又被称为香农熵,是香农提出的,用于解决信息的量化度量问题的。

在信息论中,熵被用来衡量一个随机变量出现的期望值。他代表了在接受之前,信息传输过程中损失的信息量,又被成为信息熵。信息熵也称信源熵、平均自信量。

信息熵的熵是源自于热力学。在热力学中熵的定义是系统可能状态数的对数;其物理含义是体系混乱程度的度量。而熵在信息论中代表随机变量不确定度的度量。

信息熵认为一条信息的信息量大小和它的不确定性有直接的关系。具体的话我们已经在一中讲解完毕,结合二者后,可以认为信息量的度量就等于不确定性的多少。

信息的基本作用就是消除人们对事物的不确定性。

三:信息熵的数学解释

一个离散型随机变量X的熵H(X)的定义为:

H(X)=−∑x∈Xp(x)logp(x)

3.1 特点

有明确定义的科学名词且与内容无关,而且不随信息的具体代表式的变化而变化。是独立与形式,反应信息表达式中统计方面的性质。是统计学上的抽象概念。

值得一提的是,如果公式中的log是以2为底计算出来的,那么计算出来的信息熵单位即为”bit“,这一术语在Shannon的著名论文A Mathematical Theory of Communication,有兴趣的话,可以看一下。

3.2 事例

赌马比赛里,有4匹马{A,B,C,D},获胜的概率分别为 12,14,18,18 。

那么接下来我们将获胜视为一个随机变量 X∈{A,B,C,D} 。由于信息不明确,所以这里我们采用提问的手段来确定随机变量X的取值情况。

我们准备了四个问题:A获胜了吗?B获胜了吗?C获胜了吗?我们通过最多这三个问题就可以得到我们想要的答案。

  • 当X=A,那么需要问1次, p(A)=12 ;也可以将这句解读为有 12 的机率提问一个问题即可得到答案。
  • 当X=B,那么需要问2次, p(B)=14 ;表示有 14 的机率问3个问题即可得到答案。
  • 当X=C,那么需要问3次, p(C)=18 ;表示有 18 的机率问3个问题即可得到答案。
  • 当X=D,那么需要问3次, p(D)=18 ;表示有 18 的机率问3个问题即可得到答案。

在这种文法下,那么X取值的二元问题数量为:

E(N)=12⋅1+14⋅2+18⋅3+18⋅3=74

根据信息熵的定义,会得到(这里取以2为底):

H(X)=12log(2)+14log(4)+18log(8)+18log(8)=74bits

在二进制计算机中,一个比特为0或1,其实就代表一个二元问题的回答。也就是说,在计算机中,我们给那一批马夺冠这个时间进行编码,所需要的平均码长为1.75个比特。

平均码长的定义为:L(C)=∑x∈Xp(x)l(x)

3.3 分析:

很显然,为了尽可能减少码长,我们要给发生概率p(x)较大的事件,分配较短的码长l(x)。如果这个问题深入讨论下去,就可以得出霍夫曼编码的概念。

四:信息熵的特性

  • 单调性,及发生概率越高的事件,其所携带的信息熵越低。极端案例就是最开始提到的”太阳从东方升起“,因为为确定事件,所以不懈怠任何信息量。从信息论的角度,认为这句话没有消除任何不确定性。
  • 非负性,即信息熵不能为负。如果这句话正确就是,当你得知某个信息后,却增加了不确定性是不合逻辑的。
  • 累加性,即多随机事件同时发生存在的总不确定性的亮度可以表示为各个不确定性的亮度的和。公式就是如下:

    事件X=A,Y=B同时发生。

    两个事件相互独立 p(X=A,Y=B)=p(X=A)⋅(X=B) 。

    信息熵就是: H(A,B)=H(A)+H(B) 。

香农已经数学上严格证明了满足上述三个的不确定性度量函数具有唯一形式。

补充:

如果两个事件不相互,那么满足 H(A,B)=H(A)+H(B)−I(A,B) ,其中I(A,B)是互信息(mutal information),代表一个随机变量包含另外一个随机变量信息度的度量。这个情况这里就不做过多的说明了。

参考文献:

1:http://www.360doc.com/content/10/1126/15/228619_72632641.shtml

2:https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5/7302318?fr=aladdin

3:https://www.zhihu.com/question/22178202

4:https://www.zhihu.com/question/27403427

5:http://wiki.mbalib.com/wiki/%E4%BF%A1%E6%81%AF%E7%86%B5

继续阅读