第十講：Random Forest

1、Random Forest Algorithm

Bagging：通過平均來降低變化量。 Decision Tree：對不同的資料敏感，變化量大。 aggregation of aggregation ：用bagging的方式把一堆decision tree結合起來。

《機器學習技法》第十講：Random Forest 第十講：Random Forest

RF = bagging + CART 1、并行化、高效 2、繼承CART的優點 3、消除完全生長CART的overfit缺點

《機器學習技法》第十講：Random Forest 第十講：Random Forest

得到有差異性的g：随機抽取dataset（bagging）随機抽取feature（低維投影，特征子空間） RF = bagging + 随機特征CART

《機器學習技法》第十講：Random Forest 第十講：Random Forest

特征 = 投影矩陣*原始特征投影到原始方向：特征随機抽取投影到任意方向：特征結合後随機抽取，more powerful。原始的RF考慮在 CART每一次分支時将特征結合起來後低維投影。 RF = bagging + 随機結合特征CART

《機器學習技法》第十講：Random Forest 第十講：Random Forest

課後習題： perceptron，特征權重後切分 decision stump，單個特征切分，相當于水準或垂直切分 random-combination，特征結合後投影，不隻是垂直、水準，還可能斜的切分

《機器學習技法》第十講：Random Forest 第十講：Random Forest

2、Out-Of-Bag Estimate

out-of-bag（OOB） example：沒有被bagging過程選中的資料

《機器學習技法》第十講：Random Forest 第十講：Random Forest

有多少OOB Example：N*(1/e)

《機器學習技法》第十講：Random Forest 第十講：Random Forest

OOB資料可以用來交叉驗證G bagging的過程可以實作自我交叉驗證：OOB Error

《機器學習技法》第十講：Random Forest 第十講：Random Forest

OOB Error做模型選擇不需要切分訓練集和驗證集，不需要做兩次訓練

《機器學習技法》第十講：Random Forest 第十講：Random Forest

3、Feature Selection

有時候想去除：備援的特征、無關的特征特征選擇（事物的雙面性，好處壞處相對應，關鍵是特征選擇的好壞）好處：高效、更一般化、更具有解釋性壞處：選取特征的計算量大、過拟合、錯誤的解釋 decision tree自帶特征選擇。

《機器學習技法》第十講：Random Forest 第十講：Random Forest

根據重要性選取特征：取Top importance 線性模型的importance：w向量（這時x應該要歸一化才能衡量吧！）

《機器學習技法》第十講：Random Forest 第十講：Random Forest

RF的特征選擇：置換檢驗 random test：如果是重要的特征，那麼增加random values，表現會下降 random values： 1、插入均勻分布、高斯分布等資料。缺陷：改變原有特征的資料分布，表現差距=噪音影響+分布影響（不要） 2、boostrap（在原有資料上抽樣），置換檢驗（在原有資料上重新随機排列）。分布接近一緻，資料亂掉了。

特征 i 的重要性 = 原始資料的表現 - 特征 i 資料置換後的表現

《機器學習技法》第十講：Random Forest 第十講：Random Forest

原始RF特征重要性衡量一種方法： (1)原始資料，訓練G，在G上用OOB Error衡量表現performance(D)

(2) 原始資料上置換特征 i的資料，重新訓練G(p) ，在G (p) 上用 OOB Error衡量表現？performance(D (p) ) (3)importance(i) = performance(D) - performance(D (p) ) 更簡單的方法： (1)原始資料，訓練G，在G上用OOB Error衡量表現 Eoob(G) (2) OOB example上置換特征 i的 OOB 資料，在G上用 OOB Error衡量表現E(p) oob (G) (3)importance(i) = E oob(G) - E(p) oob (G)

《機器學習技法》第十講：Random Forest 第十講：Random Forest

3、Random Forest Action

随機特征結合 CART 樹（左圖） bagging的一棵随機特征結合 CART 樹（中圖，bagging選取中的點比較大） t棵樹的RF（bagging + 随機特征結合 CART 樹）（右圖）

簡單的資料集

《機器學習技法》第十講：Random Forest 第十講：Random Forest

樹變多，邊界變得更加平滑、更大。

《機器學習技法》第十講：Random Forest 第十講：Random Forest

複雜的資料集

《機器學習技法》第十講：Random Forest 第十講：Random Forest

很容易就得到了還不錯的非線性模型

《機器學習技法》第十講：Random Forest 第十講：Random Forest

有噪音的資料集

《機器學習技法》第十講：Random Forest 第十講：Random Forest

樹多了後通過投票把噪音消除，得到穩定的結果

《機器學習技法》第十講：Random Forest 第十講：Random Forest

樹越多，表現越好 KDDCup例子：RF的随機性使得表現不穩定，通過增加樹的棵樹來使得它更穩定 RF的缺點：RF是一個随機性的模型，如果随機的過程還沒有到達相對穩定的狀态，或者是對結果的一點點變化很敏感，那麼會受随機過程的影響。實物上使用RF，要看G是否達到穩定，進而決定是否需要更多的樹。

《機器學習技法》第十講：Random Forest 第十講：Random Forest

《機器學習技法》第十講：Random Forest 第十講：Random Forest

第十講：Random Forest

1、Random Forest Algorithm

2、Out-Of-Bag Estimate

3、Feature Selection

3、Random Forest Action

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告