摘要:在随機森林介紹中提到了Bagging方法,這裡就具體的學習下bagging方法。
Bagging方法是一個統計重采樣的技術,它的基礎是Bootstrap。基本思想是:利用Bootstrap方法重采樣來生成多個版本的預測分類器,然後把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器的好,因為綜合了各個分類器的特點。之是以用可重複的随機采樣技術Bootstrap,是因為進行重複的随機采樣所獲得的樣本可以得到沒有或者含有較少的噪聲資料。
在訓練集上采樣Bootstrap的方法進行采樣,平均1/3的樣本不會出現在采樣的樣本集合中,這就意味着訓練集中的噪聲點可能不會出現在Bootstrap所采集的樣本集合中,是以與在原始樣本集合上建構分類器相比,Bootstrap方法可以更容易的獲得好的分類器。
在Leo Breiman的論文 :Bagging Predictors 中他研究了不穩定性問題。他指出神經網絡,分類和回歸樹,線性回歸等方法的子集選擇都不是穩定的。K-nearest相鄰方法是穩定的。在論文中表明,Bagging方法可以正常的處理不穩定情況。實踐和理論證明Bagging方法可以将一個好的不穩定的過程推向最優化方向發展。
Bagging算法流程如下:
1:對于給定的訓練樣本集合,通過n次的随機可重複的采樣,從原始的樣本集合中建構一個Bootstrap樣本集合。
2:對于每一個Bootstrap樣本集合建構一顆決策樹。
3:重複1-2步,擷取更多的決策樹。
4:讓每一棵決策樹對輸入量X進行投票
5:計算所有的投票數目,并以投票最多的一個分類标簽作為X的類型。