熵(entropy)这个概念为什么可以被引用到科学的多个不同的领域呢? (物理,计算机视觉,信息论等等)
这里我就来谈谈物理学上的熵,和信息论中的熵联系在于哪里。 为了帮助理解和应用,最后有几个关于熵的应用的有趣例子。
熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。
- 一滴墨水滴在清水中,部成了一杯淡蓝色溶液
- 热水晾在空气中,热量会传到空气中,最后使得温度一致
可以注意到些能量分布的变化的过程都是都是不可逆的(你不能期望清水中的蓝色分子 自动地聚成一滴墨水,放在空气中的汽水能 自动变成开水), 所以这些系统的熵都在慢慢地增加。
而物理学第二定律描述的就是,宇宙中这些不可逆的过程的变化规律,而自然界中的一切自发过程都具有不可逆性. 所以熵增加是一个很普适地概念,说明了宇宙的发展具有方向性, 也就是向着熵增大的方向发展。 而这些推动事物向熵增大方向发展的力量(规律), 被称为熵力。更多的一些生活中的例子:
- 熵力的一个例子是耳机线,我们将耳机线整理好放进口袋,下次再拿出来已经乱了。让耳机线乱掉的看不见的“力”就是熵力,耳机线喜欢变成更混乱。
- 熵力另一个具体的例子是弹性力。一根弹簧的力,就是熵力。 胡克定律其实也是一种熵力的表现。
- 万有引力也是熵力的一种(热烈讨论的话题)。
- 浑水澄清[1]
宇宙发展的尽头就是熵达到最大,所有物质温度达到热平衡。这样的宇宙中再也没有任何可以维持运动或是生命的能量存在(热寂)。
以上是从能量分布角度看熵的定义, 从 微观分子角度看,熵表征了这个系统的混乱程度(与微观状态数量有关,比如说粒子所处的能级(E)可以作为状态). 所有微观粒子的状态只有一种时,也就是混乱程度为0。而当3个粒子分别处于状态1,2,3 时。这个系统的熵就是k*ln(3),总而言之就是微观状态越多,熵越TM大.
于是从微观看,熵就表现了这个系统所处状态的 不确定性程度。香农,描述一个信息系统的时候就借用了熵的概念,这里熵表示的是这个信息系统的 平均信息量(平均不确定程度)。 所以当我们说某句话的时候,会帮助你消除一定不确定程度,而消除程度的多少就是信息量的多少. 通过计算[2],常用汉字的熵要大于英文字母的熵,所以你说相同长度的中文很有可能比英文表达的意思要多哦。
除了信息论,很多地方都借用了这个可爱的概念。
1. (信息压缩编码)霍夫曼(Huffman)编码: 设计一个信息系统,使得其熵最大,(编码的平均信息量最大), 于是使得发送效率最高。
2. (计算机视觉)[3]这文章里,介绍了用熵变化来检测出一个图片的显著点.(e.g.一只在墙上的手). 原理就是这些有突出特征的点,都是表现出很强的不确定性(熵)。于是把这些点找出来,就很有可能是你想要的(特征突出的东西)
3. (自然语言处理) 在翻译的时候,一个 句子J, 可能有 n种翻译(f1,f2...fn),还有一些 知识Z(比如在这篇武侠小说里,f3,f4这两个翻译的可能性更大)。现在你要建立一个模型来描述这n种翻译的可能性(概率分布)是怎么样的, 最好的模型也就是让这几种翻译的概率分布的 “熵” 最大。 学术一点说,就是在已知的前提下,请将未知的东西做最不可预测(熵最大)的推断。这就是 最大熵模型的思想。
有趣的问题是, 在这些系统中,会不会也存在和宇宙一样的,熵不断增大的系统呢?
或者通过观察某些熵不断增大的信息系统(像语言系统,熵总是不断增大的,因为,人们总想更快更简单地表达一些信息),能不能推导出这是由一种不可逆的力量产生的变化?这种力量又是什么呢?
[1] http://www.douban.com/group/topic/11462628/ [2] http://kilem3.wordpress.com/2006/09/11/%E4%BF%A1%E6%81%AF%E5%AD%A6%E4%B8%8A%E7%9A%84%E7%86%B5/
[3]Spatiotemporal Localization and Categorization of Human Actions in Unsegmented Image Sequences