簡單介紹資訊增益與熵的相關知識
1.資訊熵
熵表示任何一種能量在空間中分布的均勻程度。能量分布得越均勻,熵就越大。後來香農将其引入到資訊論中稱為資訊熵。資訊熵在随機事件發生之前,它是結果不确定性的量度;在随機事件發生之後,它是人們從該事件中所得到資訊量。
對于給定的機率分布
,則該分布傳遞的資訊量即P的熵為
熵的公式表明,機率分布越均勻,其所攜帶的資訊量越大。
2.資訊增益
首先給出資訊增益的定義:
令X為随機變量,則X的資訊熵定義為:
通過觀測随機變量Y随機變量X的資訊熵變為:
其中
代表随機變量X的先驗機率,
代表觀測到随機變量Y後随機變量X的後驗機率。
引入随機變量Y的資訊後,随機變量X的資訊熵
,即引入Y後,X的不确定程度會變小或保持不變。若Y與X不相關,則
;若Y與X相關,則
,內插補點
越大, 對應Y與X的相關性越強。
是以,定義資訊增益
為
與
的內插補點,反映了Y與X的相關程度,
越大,則變量Y與X的相關性越強。
而且,可以證明,資訊增益具有對稱性,即
。另外,為了對資訊增益進行歸一化,可采用下式,同理有
。