Sklearn 成長之路（二）建構随機森林并處理Iris資料集

2023-04-19 03:08:17

随機森林的簡要解釋

随機森林即采用建構多棵随機樹的形式，讓這些随機樹同時并行處理一組資料，并對各個樹的分類結果進行彙總并投票，最終傳回随機森林的分類結果。

分類結果輸出

傳入資料集包含内容有： [‘data’, ‘target’, ‘target_names’, ‘DESCR’, ‘feature_names’]

訓練集樣本大小： (120, 4)

訓練集标簽大小： (120,)

測試集樣本大小： (30, 4)

測試集标簽大小： (30,)

模型測試集準确率為： 0.9333333333333333

特征重要程度為：

(‘sepal length (cm)’, 0.0915733052877204)

(‘sepal width (cm)’, 0.01876997123319593)

(‘petal length (cm)’, 0.44209219100019126)

(‘petal width (cm)’, 0.4475645324788924)

Show me the code

導包

# 資料集
from sklearn import datasets
# 随機森林子產品
from sklearn.ensemble import RandomForestClassifier
# 訓練集測試集分割子產品
from sklearn.model_selection import train_test_split

import numpy as np
import matplotlib.pyplot as plt

擷取資料

# 自定義導入資料集函數
def get_data(total_data):
    # 顯示total_data包含的内容
    print("傳入資料集包含内容有：", [x for x in total_data.keys()])
    # 樣本
    x_true = total_data.data
    # 标簽
    y_true = total_data.target
    # 特征名稱
    feature_names = total_data.feature_names
    # 類名
    target_names = total_data.target_names
    
    return x_true, y_true, feature_names, target_names

主函數及調用

# 定義主函數
def main():
    # 利用自定義函數導入Iris資料集
    total_iris = datasets.load_iris()
    x_true, y_true, feature_names, target_names = get_data(total_iris)
    
    # 分割資料集
    rate_test = 0.2  # 訓練集比例
    x_train, x_test, y_train, y_test = train_test_split(x_true,
                                                        y_true,
                                                        test_size= rate_test)
    print("\n訓練集樣本大小：", x_train.shape)
    print("訓練集标簽大小：", y_train.shape)
    print("測試集樣本大小：", x_test.shape)
    print("測試集标簽大小：", y_test.shape)

    # 執行個體化随機森林分類器
    clf = RandomForestClassifier()
    # 訓練模型
    clf.fit(x_train, y_train)
    # 評價模型
    score = clf.score(x_test, y_test)
    print("\n模型測試集準确率為：", score)
    
    # 顯示特征重要程度
    print("\n特征重要程度為：")
    info = [*zip(feature_names, clf.feature_importances_)]
    for cell in info:
        print(cell)
    
    
# 調用主函數
if __name__ == "__main__":
    main()

Sklearn 成長之路（二）建構随機森林并處理Iris資料集

随機森林的簡要解釋

分類結果輸出

Show me the code

繼續閱讀

任務一随機森林算法梳理目錄

# 使用袋外誤差評估随機森林模型

機器學習之随機森林（Random Forest）文本算法的精确率

機器學習模組化中的Bagging思想！

稅務合規性預測

練習——随機森林分類毒、可食用蘑菇資料集

随機森林筆記随機森林

随機森林總結随機森林總結

3、随機森林随機森林

【随機森林】随機森林的原理/ 樣例實作/ 參數調優分析及 Python代碼實作

随機森林回歸應用中遇到的問題二、某個特征的取值減少後，效果會變好？？三、随機森林總結

資料分享|R語言用主成分PCA、邏輯回歸、決策樹、随機森林分析心髒病資料并高維可視化|附代碼資料

Python用機器學習算法進行因果推斷與增量、增益模型Uplift Modeling智能營銷模型

【RF分類】基于matlab随機森林算法資料分類【含Matlab源碼 2048期】

R語言決策樹和随機森林分類電信公司使用者流失churn資料和參數調優、ROC曲線可視化

R語言懲罰邏輯回歸、線性判别分析LDA、廣義加性模型GAM、多元自适應回歸樣條MARS