sklearn - 分類算法 -随機森林

2023-01-17 17:34:50

`随機森林` ：多顆決策樹的內建學習方法。

內建學習方法

：

建立多個模型來解決一個問題。模型之間獨立學習和獨立預測。

最後的預測結果按照大多數合并為一個最終預測結果，這個最終的預測結果好于單個模型的預測。

随機森林

=随機，多次的建立決策樹

建立決策樹的過程如下：

有N個樣本，M個特征

每次從樣本集合裡随機選1個樣本，重複N次。抽樣有放回。（會出現重複抽取到樣本）

随機在M個特征裡面，選出m個特征（m<<M）

（樹之間的樣本集合，特征都是不同的）

核心思想：随機有放回的抽樣！！bootstrap

如果你訓練了150個樹, 其中有104個樹的結果是True, 46顆樹的結果是False, 那麼最終結果會是True.

api :

from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier(n_estimators=122,criterion=“gini”,max_depth=22,max_features=“auto”,bootstrapestimators=True)

決策樹個數，基尼系數，最大樹深度，最大選擇特征的數量，是否有放回

案例：網格調優，預測泰坦尼克号生存。

from sklearn.model_selection import GridSearchCV
from    sklearn.feature_extraction import DictVectorizer
import pandas as pd

from sklearn.ensemble import RandomForestClassifier
def randomforest():
    data = pd.read_csv('../taitanlike.txt')
    # print(data.info())
    data['age'] = data['age'].fillna(data['age'].mean())
    x = data[['pclass','age','sex']]
    y = data['survived']
    print(x)

    # 特征工程
    x = x.to_dict(orient='records')
    dv = DictVectorizer(sparse=False)
    x = dv.fit_transform(x)
    x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8)
    # 訓練模型
    rfc  = RandomForestClassifier()
    para ={'n_estimators':[88,99,100,111,122,120],'max_depth':[8,9,10,13,14]}
    gscv = GridSearchCV(rfc,param_grid=para,cv=2)
    gscv.fit(x_train,y_train)
    predict = gscv.predict(x_test)
    score = gscv.score(x_test,y_test)
    print(predict)
    print(score)
    print(gscv.best_params_)
randomforest()

0 1 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1
 1 1 1 0]
0.8288973384030418
{'max_depth': 8, 'n_estimators': 120}

最佳 8層， 120個決策樹

sklearn - 分類算法 -随機森林

`随機森林` ：多顆決策樹的內建學習方法。

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

sklearn - 分類算法 -随機森林

随機森林 ： 多顆 決策樹的內建學習方法。

繼續閱讀

`随機森林` ：多顆決策樹的內建學習方法。