第九篇：随機森林(Random Forest)

随機森林非常像《機器學習實踐》裡面提到過的那個AdaBoost算法，但差別在于它沒有疊代，還有就是森林裡的樹長度不限制。

因為它是沒有疊代過程的，不像AdaBoost那樣需要疊代，不斷更新每個樣本以及子分類器的權重。是以模型相對簡單點，不容易出現過拟合。

前言

随機森林非常像《機器學習實踐》裡面提到過的那個AdaBoost算法，但差別在于它沒有疊代，還有就是森林裡的樹長度不限制。

因為它是沒有疊代過程的，不像AdaBoost那樣需要疊代，不斷更新每個樣本以及子分類器的權重。是以模型相對簡單點，不容易出現過拟合。

下面先來講講它的具體架構流程。

架構流程

随機森林可以了解為Cart樹森林，它是由多個Cart樹分類器構成的內建學習模式。其中每個Cart樹可以了解為一個議員，它從樣本集裡面随機有放回的抽取一部分進行訓練，這樣，多個樹分類器就構成了一個訓練模型矩陣，可以了解為形成了一個議會吧。

然後将要分類的樣本帶入這一個個樹分類器，然後以少數服從多數的原則，表決出這個樣本的最終分類類型。

設有N個樣本，M個變量(次元)個數，該算法具體流程如下：

1. 确定一個值m，它用來表示每個樹分類器選取多少個變量。(注意這也是随機的展現之一)

2. 從資料集中有放回的抽取 k 個樣本集，用它們建立 k 個樹分類器。另外還伴随生成了 k 個袋外資料，用來後面做檢測。

3. 輸入待分類樣本之後，每個樹分類器都會對它進行分類，然後所有分類器按照少數服從多數原則，确定分類結果。

性能制約

1. 森林中的每個樹越茂盛，分類效果就越好。

2. 樹和樹的枝葉穿插越多，分類效果就越差。

重要參數

1. 預選變量個數 (即架構流程中的m)；

2. 随機森林中樹的個數。

這兩個參數的調優非常關鍵，尤其是在做分類或回歸的時候。

建構随機森林模型

函數名：randomForest(......)；

函數重要參數說明：

- x，y參數自然是特征矩陣和标簽向量；

- na.action：是否忽略有缺失值的樣本；

- ntree：樹分類器的個數。500-1000為佳；

- mtry：分枝的變量選擇數；

- importance：是否計算各個變量在模型中的重要性(後面會提到)。

建構好模型之後，帶入predict函數和待預測資料集就可得出預測結果。然而，R語言中對随機森林這個機制的支援遠遠不止簡單的做分類這麼簡單。它還提供以下這幾個功能，在使用這些功能之前，都要先調用randomForest函數架構出模型。

使用随機森林進行變量篩選

之前的文章提到過使用主成分分析法PCA，以及因子分析EFA，但是這兩種方法都有各自的缺點。它們都是屬于變量組合技術，會形成新的變量，之後一般還需要一個解釋的階段。

對于一些解釋起來比較麻煩，以及情況不是很複雜的情況，直接使用随機森林進行特征選擇就可以了，下面為具體步驟：

執行這個腳本後：

其中的兩列是衡量變量重要性的名額，越高表示該變量對分類的影響越大。第一列是根據精度平均減少值作為标準度量，而第二列則是采用節點不純度的平均減少值作為度量标準。

重要度的計量方法參考下圖（摘自百度文庫）：

使用随機森林繪制MDS二維圖

通過MDS圖我們能大緻看出哪些類是比較容易搞混的：

生成下圖：

可以看出，第二列第三列存在着容易混淆的情況。

小結

R語言包中提供的随機森林功能包還有很多，對于調優很有幫助，請務必查詢相關資料并掌握。

另外，部分變種的随機森林算法還可以用來做回歸。

第九篇：随機森林(Random Forest)

前言

架構流程

性能制約

重要參數

建構随機森林模型

使用随機森林進行變量篩選

使用随機森林繪制MDS二維圖

小結

繼續閱讀

一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

【R語言】GARCH模型的應用一、資料來源二、資料分析三、模型建立四、模型優化五、結論六、實作代碼七、參考資料

Python TensorFlow循環神經網絡RNN-LSTM神經網絡預測股票市場價格時間序列和MSE評估準确性

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

Lagrange插值的R語言實作

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

用Matlab搞計算機視覺是怎樣的體驗？

R語言-相關性分析函數

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

在weka中內建自己的算法