論貝葉斯方法的重要性?
如今,貝葉斯方法席卷了機率論,并将應用延伸到各個問題領域,所有需要作出機率預測的地方都可以見到貝葉斯方法的影子。特别地,貝葉斯是機器學習的核心方法之一。
一、概念闡述
貝葉斯法則又被稱為貝葉斯定理、貝葉斯規則,是指機率統計中的應用所觀察到的現象對有關機率分布的主管判斷(即先驗機率)進行修正的标準方法。當分析樣本大到接近總體數時,樣本中事件發生的機率将接近于總體中事件發生的機率。
貝葉斯統計中的兩個基本概念是先驗分布和後驗分布:
1、先驗分布。總體分布參數theta的一個機率分布。貝葉斯學派的根本觀點,是認為在關于總體分布參數theta的任何統計推斷問題中,除了使用樣本所提供的資訊外,還必須規定一個先驗分布,它是在進行統計推斷時不可缺少的一個要素。他們認為先驗分布不必有客觀的依據,可以部分地或完全地基于主觀信念。
2、後驗分布。根據樣本分布和未知參數的先驗分布,用機率論中求條件機率分布的方法,求出的在樣本已知下,未知參數的條件分布。因為這個分布是在抽樣以後才得到的,故稱為後驗分布。貝葉斯推斷方法的關鍵是任何推斷都必須且隻需根據後驗分布,而不能涉及樣本分布。
二、貝葉斯公式
P(A∩B)=P(AB)=P(B)P(A|B)=P(A)P(B|A)(1)
P(A|B)=P(AB)/P(B)=P(B|A)*P(A)/P(B)(2)
P(B|A)=P(AB)/P(A)=P(A|B)*P(B)/P(A)(3)
而上述公式裡面的P(AB),是指AB 都發生的機率。公式(2)表示的是事件A在事件B的條件下的機率,公式(3)表示的是時間B在事件A的條件下發生的機率,這兩者的機率是不一樣的。然而,這兩者是有确定的關系的,貝葉斯法則就是這種關系的陳述。
其中:
1、P(A)是A的先驗機率或邊緣機率,稱作“先驗”是因為它不考慮B因素。
2、P(A|B)是已知B發生後A的條件機率,也稱作A的後驗機率。
3、P(B|A)是已知A發生後B的條件機率,也稱作B的後驗機率,這裡稱為似然度。
4、P(B)是B的先驗機率或邊緣機率,這裡稱作标準化常量。
5、P(B|A)/P(B)稱作标準似然度。
貝葉斯法則又可表述為:
後驗機率=(似然度*先驗機率)/标準化常量=标準化似然度*先驗機率
P(A|B)随着P(A)和P(B|A)的增長而增長,随着P(B)的增長而減小。即如果B獨立于A時,被觀察到的可能性越大,那麼B對A的支援度越小。
本文參考部落格連結:
http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
http://blog.csdn.net/yanghonker/article/details/51505068
http://www.cnblogs.com/ohshit/p/5629581.html