拓端tecdat|機器學習：在SAS中運作随機森林

原文連結：http://tecdat.cn/?p=7661

為了在SAS中運作随機森林，我們必須使用PROC HPFOREST指定目标變量，并說明天氣變量是“類别”還是“定量”。為了進行此分析，我們使用了目标（Repsone變量），該目标是分類的（SAS語言中标稱的），如下面的圖像代碼中所描述的黃色和紅色：

運作代碼後，我們得到了一系清單格，這些表格将詳細分析資料。例如，模型資訊讓我們知道，随機選擇了3個變量來測試每個節點或每個樹中可能的分割（黃色）。我們還可以看到，運作的最大樹數為100，如藍色下劃線所示。

HPFOREST僅使用在任何觀察值下均沒有缺失記錄的有效變量。但是，我們還可以看到，在研究樣本的213個國家中，有213個被利用。

拓端tecdat|機器學習：在SAS中運作随機森林

接下來，我們可以看到模型生成帶有“基準拟合統計量”的表。就本研究中的資料而言，我們可以看到該模型識别出38％的誤分類，換句話說是62％的準确分類。這表示大部分樣本已在每個随機選擇的樣本中正确分類。

拓端tecdat|機器學習：在SAS中運作随機森林

在下表中分析森林時，我們可以看到誤分類率已經達到了最低點，這表明在OOB樣本中使用該模型進行測試時，誤分類率僅在22％。

拓端tecdat|機器學習：在SAS中運作随機森林

最後，我們看到SAS POC HPFOREST為我們提供了“變量重要性”表。下表概述了每個變量如何有助于模型的可預測性的重要性等級。如下圖所示，酒精變量排名最高。

現在，以下内容将幫助我們了解如何閱讀表格：

拓端tecdat|機器學習：在SAS中運作随機森林

我們可以看到随機森林是一種資料挖掘算法，可以選擇重要的解釋變量，這些變量可以用于确定因變量（目标變量）的分類結果還是定量結果。此外，本文還允許我們結合使用分類變量和定量變量。總之，這個森林讓我們知道哪些變量很重要，但彼此之間沒有關系。

拓端tecdat|機器學習：在SAS中運作随機森林

最受歡迎的見解

1.從決策樹模型看員工為什麼離職

2.R語言基于樹的方法：決策樹，随機森林

3.python中使用scikit-learn和pandas決策樹

4.機器學習：在SAS中運作随機森林資料分析報告

5.R語言用随機森林和文本挖掘提高航空公司客戶滿意度

6.機器學習助推快時尚精準銷售時間序列

7.用機器學習識别不斷變化的股市狀況——隐馬爾可夫模型的應用

8.python機器學習：推薦系統實作（以矩陣分解來協同過濾）

9.python中用pytorch機器學習分類預測銀行客戶流失