原文連結:http://tecdat.cn/?p=7661
原文出處:拓端資料部落公衆号
為了在SAS中運作随機森林,我們必須使用PROC HPFOREST指定目标變量,并說明天氣變量是“類别”還是“定量”。為了進行此分析,我們使用了目标(Repsone變量),該目标是分類的(SAS語言中标稱的),如下面的圖像代碼中所描述的黃色和紅色:
運作代碼後,我們得到了一系清單格,這些表格将詳細分析資料。例如,模型資訊讓我們知道,随機選擇了3個變量來測試每個節點或每個樹中可能的分割(黃色)。我們還可以看到,運作的最大樹數為100,如藍色下劃線所示。
HPFOREST僅使用在任何觀察值下均沒有缺失記錄的有效變量。但是,我們還可以看到,在研究樣本的213個國家中,有213個被利用。
接下來,我們可以看到模型生成帶有“基準拟合統計量”的表。就本研究中的資料而言,我們可以看到該模型識别出38%的誤分類,換句話說是62%的準确分類。這表示大部分樣本已在每個随機選擇的樣本中正确分類。
在下表中分析森林時,我們可以看到誤分類率已經達到了最低點,這表明在OOB樣本中使用該模型進行測試時,誤分類率僅在22%。
最後,我們看到SAS POC HPFOREST為我們提供了“變量重要性”表。下表概述了每個變量如何有助于模型的可預測性的重要性等級。如下圖所示,酒精變量排名最高。
現在,以下内容将幫助我們了解如何閱讀表格:
- 規則數:告訴我們使用變量的拆分規則數
- Gini OOB:這是在“ Out of Bag”階段中計算出的資料
- 拟合統計告訴我們,OOB資料的偏差較小,是以,資料通過OOB Gini度量進行排序
- 就預測自殺率高于正常水準而言,這些變量被列為高度重要性(頂部)和最低重要性(底部)。
- 從下表中我們可以看出,最容易預測模型自殺率高于正常模型的變量是酒精消費量,就業率和城市率。
我們可以看到随機森林是一種資料挖掘算法,可以選擇重要的解釋變量,這些變量可以用于确定因變量(目标變量)的分類結果還是定量結果。此外,本文還允許我們結合使用分類變量和定量變量。總之,這個森林讓我們知道哪些變量很重要,但彼此之間沒有關系。
最受歡迎的見解
1.從決策樹模型看員工為什麼離職
2.R語言基于樹的方法:決策樹,随機森林
3.python中使用scikit-learn和pandas決策樹
4.機器學習:在SAS中運作随機森林資料分析報告
5.R語言用随機森林和文本挖掘提高航空公司客戶滿意度
6.機器學習助推快時尚精準銷售時間序列
7.用機器學習識别不斷變化的股市狀況——隐馬爾可夫模型的應用
8.python機器學習:推薦系統實作(以矩陣分解來協同過濾)
9.python中用pytorch機器學習分類預測銀行客戶流失