天天看點

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

這篇文章是關于什麼的

在本文中,我們将了解随機森林算法是如何在内部工作的。為了真正了解它,了解一下決策樹分類器可能會有幫助。但這并不完全是必需的。

注意:我們不涉及模組化中涉及的預處理或特征工程步驟,隻檢視當我們使用sklearn的RandomForestClassifier包調用.fit()和.transform()方法時,算法中會發生什麼。

随機森林

随機森林是一種基于樹的算法。它是多種不同種類的随機樹的集合。模型的最終值是每棵樹産生的所有預測/估計的平均值。

我們将以sklearn的RandomForestClassifier為基礎

sklearn.ensemble.RandomForestClassifier
           

資料

為了說明這一點,我們将使用下面的訓練資料。

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

注:年齡、血糖水準、體重、性别、吸煙,... f98、f99都是自變量或特征。

糖尿病(Diabetic)是我們必須預測的y變量/因變量。

内部到底發生了什麼

有了這些基本資訊,讓我們開始并了解我們将這個訓練集傳遞給算法會發生什麼…

步驟1-Bootstrapping

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

一旦我們将訓練資料提供給RandomForestClassifier模型,它(該算法)會随機選擇一組行。這個過程稱為Bootstrapping。對于我們的示例,假設它選擇m個記錄。

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

注意- 要選擇的行數可由使用者在超參數- max_samples中提供)

注意- 一行可能被多次選中

步驟2-為子樹選擇特征

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

現在,RF随機選擇一個子集的特征/列。為了簡單起見,我們選擇了3個随機特征。

注意,在你的超參數max_features中你可以控制這個數字,例如下面的代碼

import sklearn.ensemble.RandomForestClassifiermy_rf = RandomForestClassifier(max_features=8)
           

步驟3-選擇根節點

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

一旦選擇了3個随機特征,算法将對m個記錄(從步驟1開始)進行決策樹的拆分,并快速計算路徑成本。

這個度量可以是gini,也可以是熵。

criterion = 'gini' #( or 'entropy' . default= 'gini’ )
           

選取基尼/熵值最小的随機特征作為根節點。

記錄在此節點的最佳拆分點進行拆分。

步驟4-選擇子節點

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

該算法執行與步驟2和步驟4相同的過程,并選擇另一組3個随機特征。(3是我們指定的數字-你可以選擇你喜歡的-或者讓算法來選擇最佳數字)

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

它根據條件(gini/熵),選擇哪個特征将進入下一個節點/子節點,然後在這裡進一步分割。

步驟5-進一步拆分并建立子節點

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

繼續選擇特征(列)以選擇其他子節點

此過程繼續(步驟2、4)選擇随機特征并拆分節點,直到出現以下任一情況

  • a) 已用完要拆分的行數
  • b) 拆分後的基尼/熵沒有減少
sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

現在你有了第一個“迷你決策樹”。

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

使用随機選擇的行(記錄)和列(特征)建立的第一個迷你決策樹

第6步-建立更多迷你決策樹

算法傳回到你的資料并執行步驟1-5以建立第二個“迷你樹”

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

這是我們使用另一組随機選擇的行和列建立的第二個迷你樹

第7步-樹成林

一旦達到預設值100棵樹(現在有100棵迷你決策樹),模型就完成了fit()過程。

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

注意 你可以指定要在超參數中生成的樹的數量(n_estimators)

import sklearn.ensemble.RandomForestClassifiermy_rf = RandomForestClassifier(n_estimators=300)
           
sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

現在你有一個由随機建立的迷你樹組成的森林(是以得名Random Forest)

第7步-推理

現在讓我們預測一個看不見的資料集(測試資料集)中的值

為了推斷(通常稱為預測/評分)測試資料,該算法将記錄傳遞到每個迷你樹中。

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

記錄中的值根據每個節點表示的變量周遊迷你樹,最終到達一個葉節點。基于該記錄結束的葉節點的值(在訓練期間決定的),該迷你樹被配置設定一個預測輸出。

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

類似地,相同的記錄經過所有的100個小決策樹,并且每100個樹都有一個預測輸出。這個記錄的最終預測值是通過對這100棵小樹的簡單投票來計算的。

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

現在我們有了對單個記錄的預測。

該算法按照相同的過程疊代測試集的所有記錄,并計算總體精度!

sklearn 随機森林_圖解随機森林算法這篇文章是關于什麼的随機森林包資料内部到底發生了什麼步驟1-Bootstrapping步驟2-為子樹選擇特征步驟3-選擇根節點步驟4-選擇子節點步驟5-進一步拆分并建立子節點第6步-建立更多迷你決策樹第7步-樹成林第7步-推理參考文獻

疊代獲得測試集每一行的預測的過程,以達到最終的精度。

參考文獻

[1] sklearn’s documentation for RandomForestClassifier ( version : 3.2.4.3.1)

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html