鄰接熵論文:Huang J H, Powers D. Chinese Word Segmentation Based on Contextual Entropy[C].
Proceedings of the 17th Asian Pacific Conference on Language Information and Computation,
2003:152-158
本篇部落格鄰接熵概念引自:王欣. 一種基于多字互資訊與鄰接熵的改進新詞合成算法[J]. 現代計算機:專業版, 2018. 侵删!
兩個漢字是否能夠構成一個詞語,除了推斷漢字之間的結合程度外,詞語相鄰 字的多樣性也是一個衡量标準。邊界自由度是指與一個字元串相鄰的所有字元種 類的數量[43]。邊界自由度越大,表示字元串的相鄰字元集合中的字元類别就越多, 與該字元串相鄰的字元就越豐富多樣,那麼該字元串的邊界就越明确,這個字元串 成為詞語的可能性就越大。目前常用的外部統計量包括鄰接熵[46]和鄰接類别[47] (Accessor Variety, AV)。通過已有的對比方法發現鄰接熵比鄰接類别的準确率要 高,是以大多數研究都是以鄰接熵作為衡量字元串成詞機率的外部統計量。 資訊熵是資訊論中的概念,表示一個随機變量的不确定性的均值。變量的熵越 大,那麼這個變量的不确定性就越大,它攜帶的資訊量就越豐富,同時正确估計該 變量的值的可能性也越大[44]。假設𝑋是一個離散型随機變量,其取值範圍為R,當 𝑥(𝑥𝜖𝑅)時,它的機率分布為p(𝑥) = 𝑃(𝑋 = 𝑥)。那麼,随機變量的資訊熵的計算公 式如式 2.3 所示。
................................(式 2.3)
約定,0 log 0 = 0。 在新詞發現任務中,确定詞語的左邊界和右邊界的統計量通常是左鄰接熵和 右鄰接熵 [48,49]。一個候選詞組的左鄰接熵是指該候選詞組和與它左邊所有相鄰的 字結合的資訊熵之和,用來判斷該候選詞組的左鄰接字的多樣性。左鄰接熵越大, 說明該候選詞組左邊相鄰的字的種類越多,那麼該候選詞組成為某個詞語的左邊 界的可能性越大;反之,左鄰接熵越小,該候選詞組左邊相鄰的字的種類越少,它 不是某個詞語的左邊界的情況就越肯定,那麼就應該對該候選詞組向左擴充直到 左邊界确定為止。式 2.4 為候選詞的左鄰接熵計算公式。
.........................................................(式 2.4)
其中, 𝐻𝑙𝑒𝑓𝑡(𝑊)是候選詞語𝑤的左鄰接熵, 𝐶𝑙𝑒𝑓𝑡是候選詞𝑤的左鄰接字集合,𝑝(𝑤𝑙𝑒𝑓𝑡|𝑤)是候選詞𝑤出現的情況下它左邊的鄰接字是𝑤𝑙𝑒𝑓𝑡的條件機率。 如果𝑁(𝑤𝑙𝑒𝑓𝑡)是左鄰接字𝑤𝑙𝑒𝑓𝑡和候選詞𝑤共同出現的頻率, 𝑁(𝑤)是候選詞𝑤單獨出現的頻率, 𝑝(𝑤𝑙𝑒𝑓𝑡|𝑤)的計算公式如式 2.5 所示。
......................................(式 2.5)
同理, 右鄰接熵用來推斷詞語的右邊界,候選詞的右鄰接熵計算公式見式 2.6。
........................................................(式 2.6)
其中,𝐻𝑟𝑖𝑔ℎ𝑡(𝑊)是候選詞𝑤的右鄰接熵, 𝐶𝑟𝑖𝑔ℎ𝑡是候選詞的𝑤的右鄰接字集合,𝑝(𝑤𝑟𝑖𝑔ℎ𝑡|𝑤)是候選的詞𝑤出現的情況下其右鄰接字是𝑤𝑟𝑖𝑔ℎ𝑡的條件機率。 如果𝑁(𝑤𝑟𝑖𝑔ℎ𝑡)是𝑤𝑟𝑖𝑔ℎ𝑡 和𝑤 同時出現的機率, 𝑁(𝑤)是𝑤 單獨出現的機率,那麼𝑝(𝑤𝑟𝑖𝑔ℎ𝑡|𝑤)的計算公式見式 2.7。
....................................(式 2.7)
是以,如果𝐻𝑙𝑒𝑓𝑡(𝑊)大于指定的門檻值,則左邊界确定;如果𝐻𝑟𝑖𝑔ℎ𝑡(𝑊)大于制定的門檻值,則右邊界确定。
目前确定新詞左右邊界的方法一般有兩種,鄰接熵(Branch Entropy,BE)和鄰接變化數(Accessor Variety,AV),本文采用左右鄰接熵來确定新詞的左右邊界。鄰接熵[15]可以衡量候選新詞的左右鄰接字元的不确定性,其不确定性越大,說明其鄰接字元包含的資訊越多,其成詞的機率就越高。
左鄰接熵:
右鄰接熵:
其中:
是候選詞
的左鄰接字的集合,
是候選詞W的右鄰接字的集合;
表示
是候選詞W的左鄰接字的條件機率,
表示
為候選詞W的右鄰接字的條件機率。其中
和
的計算公式為:
其中:
表示
和
共同出現的次數,
表示W出現的次數。同理,
表示
和
共同出現的次數,W(N) 表示W出現的次數。