摘要:在随機森林之Bagging法中可以發現Bootstrap每次約有1/3的樣本不會出現在Bootstrap所采集的樣本集合中,當然也就沒有參加決策樹的建立,那是不是意味着就沒有用了呢,答案是否定的。我們把這1/3的資料稱為袋外資料oob(out of bag),它可以用于取代測試集誤差估計方法.
在論文:
1:Bias,variance and prediction error for classification rules.<Robert Tibshiranni>
2: An Efficient Method To Estimate Baggin’s Generalization Error.<David H.Wolpert and William G.Macready>
3:Bagging Predictors,Machine Learning (1996)<Breiman>
中,作者都建議利用OOB error 估計作為泛化誤差估計的一個組成部分,并且Breiman在論文中給出了經驗性執行個體表明袋外資料誤差估計與同訓練集一樣大小的測試集得到的精度一樣,這樣也就表明袋外資料(oob)誤差估計是一種可以取代測試集的誤差估計方法。
袋外資料(oob)誤差的計算方法如下:
對于已經生成的随機森林,用袋外資料測試其性能,假設袋外資料總數為O,用這O個袋外資料作為輸入,帶進之前已經生成的随機森林分類器,分類器會給出O個資料相應的分類,因為這O條資料的類型是已知的,則用正确的分類與随機森林分類器的結果進行比較,統計随機森林分類器分類錯誤的數目,設為X,則袋外資料誤差大小=X/O;這已經經過證明是無偏估計的,是以在随機森林算法中不需要再進行交叉驗證或者單獨的測試集來擷取測試集誤差的無偏估計。