随機森林之Bagging法

2013-11-20 17:40:00

摘要：在随機森林介紹中提到了Bagging方法,這裡就具體的學習下bagging方法。

Bagging方法是一個統計重采樣的技術,它的基礎是Bootstrap。基本思想是：利用Bootstrap方法重采樣來生成多個版本的預測分類器,然後把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器的好,因為綜合了各個分類器的特點。之是以用可重複的随機采樣技術Bootstrap,是因為進行重複的随機采樣所獲得的樣本可以得到沒有或者含有較少的噪聲資料。

在訓練集上采樣Bootstrap的方法進行采樣，平均1/3的樣本不會出現在采樣的樣本集合中,這就意味着訓練集中的噪聲點可能不會出現在Bootstrap所采集的樣本集合中,是以與在原始樣本集合上建構分類器相比,Bootstrap方法可以更容易的獲得好的分類器。

在Leo Breiman的論文：Bagging Predictors 中他研究了不穩定性問題。他指出神經網絡,分類和回歸樹,線性回歸等方法的子集選擇都不是穩定的。K-nearest相鄰方法是穩定的。在論文中表明,Bagging方法可以正常的處理不穩定情況。實踐和理論證明Bagging方法可以将一個好的不穩定的過程推向最優化方向發展。

Bagging算法流程如下：

1：對于給定的訓練樣本集合,通過n次的随機可重複的采樣,從原始的樣本集合中建構一個Bootstrap樣本集合。

2：對于每一個Bootstrap樣本集合建構一顆決策樹。

3：重複1-2步，擷取更多的決策樹。

4：讓每一棵決策樹對輸入量X進行投票

5：計算所有的投票數目，并以投票最多的一個分類标簽作為X的類型。

随機森林之Bagging法

繼續閱讀

機器學習之随機森林（Random Forest）文本算法的精确率

為什麼說bagging是減少variance，而boosting是減少bias?

內建學習 - Bagging

機器學習模組化中的Bagging思想！

稅務合規性預測

練習——随機森林分類毒、可食用蘑菇資料集

随機森林筆記随機森林

随機森林總結随機森林總結

3、随機森林随機森林

【随機森林】随機森林的原理/ 樣例實作/ 參數調優分析及 Python代碼實作

随機森林回歸應用中遇到的問題二、某個特征的取值減少後，效果會變好？？三、随機森林總結

資料分享|R語言用主成分PCA、邏輯回歸、決策樹、随機森林分析心髒病資料并高維可視化|附代碼資料

Python用機器學習算法進行因果推斷與增量、增益模型Uplift Modeling智能營銷模型

【RF分類】基于matlab随機森林算法資料分類【含Matlab源碼 2048期】

R語言決策樹和随機森林分類電信公司使用者流失churn資料和參數調優、ROC曲線可視化

R語言懲罰邏輯回歸、線性判别分析LDA、廣義加性模型GAM、多元自适應回歸樣條MARS