資料挖掘十大經典算法(9) Naive Baye
簡介
貝葉斯分類的基礎是機率推理,就是在各種條件的存在不确定,僅知其出現機率的情況下,如何完成推理和決策任務。機率推理是與确定性推理相對應的。而樸素貝葉斯分類器是基于獨立假設的,即假設樣本每個特征與其他特征都不相關。舉個例子,如果一種水果其具有紅,圓,直徑大概4英寸等特征,該水果可以被判定為是蘋果。
盡管這些特征互相依賴或者有些特征由其他特征決定,然而樸素貝葉斯分類器認為這些屬性在判定該水果是否為蘋果的機率分布上獨立的。樸素貝葉斯分類器依靠精确的自然機率模型,在有監督學習的樣本集中能擷取得非常好的分類效果。在許多實際應用中,樸素貝葉斯模型參數估計使用最大似然估計方法,換而言之樸素貝葉斯模型能工作并沒有用到貝葉斯機率或者任何貝葉斯模型。
盡管是帶着這些樸素思想和過于簡單化的假設,但樸素貝葉斯分類器在很多複雜的現實情形中仍能夠取得相當好的效果。2004年,一篇分析貝葉斯分類器問題的文章揭示了樸素貝葉斯分類器取得看上去不可思議的分類效果的若幹理論上的原因。盡管如此,2006年有一篇文章詳細比較了各種分類方法,發現更新的方法(如boosted trees和随機森林)的性能超過了貝葉斯分類器。樸素貝葉斯分類器的一個優勢在于隻需要根據少量的訓練資料估計出必要的參數(變量的均值和方差)。由于變量獨立假設,隻需要估計各個變量的方法,而不需要确定整個協方差矩陣。
兩種分類模型:
分類是将一個未知樣本分到幾個預先已知類的過程。資料分類問題的解決是一個兩步過程:
第一步,建立一個模型,描述預先的資料集或概念集。通過分析由屬性描述的樣本(或執行個體,對象等)來構造模型。假定每一個樣本都有一個預先定義的類,由一個被稱為類标簽的屬性 确定。為建立模型而被分析的資料元組形成訓練資料集,該步也稱作有指導的學習。 在衆多的分類模型中,應用最為廣泛的兩種分類模型是:
決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC) 。
決策樹模型通過構造樹來解決分類問題。
1、首先利用訓練資料集來構造一棵決策樹,一旦樹建立起來,它就可為未知樣本産生一個分類。在分類問題中使用決策樹模型有很多的優點,決策樹便于使用,而且高效;根據決策樹可以
很容易地構造出規則,而規則通常易于解釋和了解;決策樹可很好地擴充到大型資料庫中,同時它的大小獨立于資料庫的大小;決策樹模型的另外一大優點就是可以對有許多屬性的資料集構造決策樹。
決策樹模型也有一些缺點,比如處理缺失資料時的困難,過度拟合問題的出現,以及忽略資料集中屬性之間的相關性等。
2、和決策樹模型相比,樸素貝葉斯模型發源于古典數學理論,有着堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失資料不太敏感,算法也比較簡單。
理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設屬性之間互相獨立,這個假設在實際應用中往往是不成立的,這給NBC 模型的正确分類帶來了一定影響。在屬性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。
貝葉斯分類器特點
1、 需要知道先驗機率
先驗機率是計算後驗機率的基礎。在傳統的機率理論中,先驗機率可以由大量的重複實驗所獲得的各類樣本出現的頻率來近似獲得,其基礎是“大數定律”,這一思想稱為“頻率主義”。而在稱為“貝葉斯主義”的數理統計學派中,他們認為時間是單向的,許多事件的發生不具有可重複性,是以先驗機率隻能根據對置信度的主觀判定來給出,也可以說由“信仰”來确定。
2、按照獲得的資訊對先驗機率進行修正
在沒有獲得任何資訊的時候,如果要進行分類判别,隻能依據各類存在的先驗機率,将樣本劃分到先驗機率大的一類中。而在獲得了更多關于樣本特征的資訊後,可以依照貝葉斯公式對先驗機率進行修正,得到後驗機率,提高分類決策的準确性和置信度。
3、分類決策存在錯誤率
由于貝葉斯分類是在樣本取得某特征值時對它屬于各類的機率進行推測,并無法獲得樣本真實的類别歸屬情況,是以分類決策一定存在錯誤率,即使錯誤率很低,分類錯誤的情況也可能發生。