機器學習之使用sklearn的随機森林算法對樣本資料進行分類，使用sklearn的AdaBoost和GradientBoost對乳腺癌資料進行分類可視化呈現

🥇🥇🥇1.使用sklearn的随機森林算法對樣本資料進行分類，要求：

🥈🥈🥈(1) 導入乳腺癌資料集

# 首先導入内置資料集子產品
from sklearn.datasets import load_breast_cancer
# 然後導入乳腺癌資料集
cancer = load_breast_cancer()

🏆🏆🏆(2) 對比随機森林算法和決策樹的分類效果；

# 定義一個決策樹分類器對象用于做比較
dt = DecisionTreeClassifier(random_state=0)
# 定義一個随機森林分類器對象
rf = RandomForestClassifier(random_state=0)
dt.fit(x_train,y_train)
rf.fit(x_train,y_train)
score_dt = dt.score(x_test,y_test)
score_rf = rf.score(x_test,y_test)

使用cross_val_score進行交叉驗證，其中：

cv為份數，即将資料集劃分為n分，依次取每一份做測試集，其他n-1份做訓練集，

#傳回每次測試準确率評分的清單

for i in range(10):
    rf_score = cross_val_score(RandomForestClassifier(n_estimators=25), cancer.data,
                               cancer.target, cv=10).mean()
    rf_scores.append(rf_score)
    dt_score = cross_val_score(DecisionTreeClassifier(), cancer.data, cancer.target, cv=10).mean()
    dt_scores.append(dt_score)

🏀🏀🏀(3) 測試弱分類器個數n_estimators對分類精度的影響。

rf_scores = []
for i in range(1,50):
    rf = RandomForestClassifier(n_estimators=i)
    rf_score = cross_val_score(rf, cancer.data, cancer.target, cv=10).mean()
    rf_scores.append(rf_score)

完整代碼：

# 導入内置資料集子產品
from sklearn.datasets import load_breast_cancer
# 導入sklearn子產品中的決策樹分類器類和随機森林分類器類
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
# 導入sklearn子產品中的模型驗證類
from sklearn.model_selection import train_test_split,cross_val_score
import matplotlib.pyplot as plt
# 導入乳腺癌資料集
cancer = load_breast_cancer()
# 使用train_test_split函數自動分割訓練集與測試集，其中test_size為測試集所占比例
x_train, x_test, y_train, y_test = train_test_split(cancer.data,cancer.target,test_size=0.3)
# 定義一個決策樹分類器對象用于做比較
dt = DecisionTreeClassifier(random_state=0)
# 定義一個随機森林分類器對象
rf = RandomForestClassifier(random_state=0)
dt.fit(x_train,y_train)
rf.fit(x_train,y_train)
score_dt = dt.score(x_test,y_test)
score_rf = rf.score(x_test,y_test)
# 輸出準确率
print('Single Tree : ', score_dt)
print('Random Forest : ', score_rf)
dt_scores = []
rf_scores = []
# 使用cross_val_score進行交叉驗證，其中：
# cv為份數，即将資料集劃分為n分，依次取每一份做測試集，其他n-1份做訓練集，
# 傳回每次測試準确率評分的清單
for i in range(10):
    rf_score = cross_val_score(RandomForestClassifier(n_estimators=25), cancer.data,
                               cancer.target, cv=10).mean()
    rf_scores.append(rf_score)
    dt_score = cross_val_score(DecisionTreeClassifier(), cancer.data, cancer.target, cv=10).mean()
    dt_scores.append(dt_score)

# 繪制評分對比曲線
plt.figure()
plt.title('Random Forest VS Decision Tree')
plt.xlabel('Index')
plt.ylabel('Accuracy')
plt.plot(range(10),rf_scores,label = 'Random Forest')
plt.plot(range(10),dt_scores,label = 'Decision Tree')
plt.legend()
plt.show()
# 觀察弱分類器數量對分類準确度的影響
rf_scores = []
for i in range(1,50):
    rf = RandomForestClassifier(n_estimators=i)
    rf_score = cross_val_score(rf, cancer.data, cancer.target, cv=10).mean()
    rf_scores.append(rf_score)

plt.figure()
plt.title('Random Forest')
plt.xlabel('n_estimators')
plt.ylabel('Accuracy')
plt.plot(range(1,50),rf_scores)
plt.show()

機器學習之使用sklearn的随機森林算法對樣本資料進行分類，使用sklearn的AdaBoost和GradientBoost對乳腺癌資料進行分類可視化呈現

可視化結果：

⚽⚽⚽⚽2.使用sklearn的AdaBoost和GradientBoost對乳腺癌資料進行分類，要求：

兩個方法相同，一個為例

🎖🎖🎖(1) 導入乳腺癌資料集

# 首先導入内置資料集子產品
from sklearn.datasets import load_breast_cancer
# 然後導入乳腺癌資料集
cancer = load_breast_cancer()

🎲🎲🎰(2) 測試learning_rate參數對分類效果的影響；

# 測試learning_rate參數對分類效果的影響
abc_scores = []
for i in np.arange(0.1,1,0.05):
    abc.learning_rate = i
    abc.fit(x_train, y_train)
    abc_score = abc.score(x_test, y_test)
    abc_scores.append(abc_score)

👓👓🕶(3) 測試n_estimators參數對分類效果的影響。

# 測試n_estimators參數對分類效果的影響
abc_scores = []
for i in range(1,50):
    abc.estimators_ = i
    abc.fit(x_train, y_train)
    abc_score = abc.score(x_test, y_test)
    abc_scores.append(abc_score)

完整代碼：

1.AdaBoost

from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split,cross_val_score
import matplotlib.pyplot as plt
import numpy as np
cancer = load_breast_cancer()
x_train, x_test, y_train, y_test = train_test_split(cancer.data,cancer.target, test_size=0.3,random_state=1)
dt = DecisionTreeClassifier()
abc = AdaBoostClassifier(DecisionTreeClassifier(), algorithm='SAMME.R', n_estimators=20,learning_rate=0.1)
abc.fit(x_train,y_train)
dt.fit(x_train,y_train)
score_abc = abc.score(x_test,y_test)
score_dt = dt.score(x_test,y_test)
# 輸出準确率
print('Ada Boost : ', score_abc)
print('Decision Tree : ', score_dt)
# 測試learning_rate參數對分類效果的影響
abc_scores = []
for i in np.arange(0.1,1,0.05):
    abc.learning_rate = i
    abc.fit(x_train, y_train)
    abc_score = abc.score(x_test, y_test)
    abc_scores.append(abc_score)

# 繪制測試結果
plt.figure()
plt.title('AdaBoost')
plt.xlabel('learning_rate')
plt.ylabel('Accuracy')
plt.plot(range(len(abc_scores)),abc_scores)
plt.show()
# 測試n_estimators參數對分類效果的影響
abc_scores = []
for i in range(1,50):
    abc.estimators_ = i
    abc.fit(x_train, y_train)
    abc_score = abc.score(x_test, y_test)
    abc_scores.append(abc_score)

# 繪制結果
plt.figure()
plt.title('AdaBoost')
plt.xlabel('n_estimators')
plt.ylabel('Accuracy')
plt.plot(range(1,50),abc_scores)
plt.show()
# 使用cross_val_score進行交叉驗證
abc_scores = []
dt_scores = []
for i in range(20):
    abc_score = cross_val_score(abc, cancer.data, cancer.target, cv=10).mean()
    abc_scores.append(abc_score)
    dt_score = cross_val_score(dt, cancer.data, cancer.target, cv=10).mean()
    dt_scores.append(dt_score)

# 繪制評分對比曲線
plt.figure()
plt.title('AdaBoost VS Decision Tree')
plt.xlabel('Index')
plt.ylabel('Accuracy')
plt.plot(range(20),dt_scores,label = 'Decision Tree')
plt.plot(range(20),abc_scores,label = 'AdaBoost')
plt.legend()
plt.show()

可視化結果：

2.Gradient Boost

from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split,cross_val_score
import matplotlib.pyplot as plt
import numpy as np
cancer = load_breast_cancer()
x_train, x_test, y_train, y_test = train_test_split(cancer.data,cancer.target,test_size=0.3,random_state=1)
gbc = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1)
dt = DecisionTreeClassifier()
gbc.fit(x_train,y_train)
dt.fit(x_train,y_train)
score_gbc = gbc.score(x_test,y_test)
score_dt = dt.score(x_test,y_test)
# 輸出準确率
print('Gradient Boost : ', score_gbc)
print('Decision Tree : ', score_dt)
# 測試learning_rate參數對分類效果的影響
gbc_scores = []
for i in np.arange(0.1,1,0.05):
    gbc.learning_rate = i
    gbc.fit(x_train, y_train)
    gbc_score = gbc.score(x_test, y_test)
    gbc_scores.append(gbc_score)

# 繪制測試結果
plt.figure()
plt.title('Gradient Boost')
plt.xlabel('learning_rate')
plt.ylabel('Accuracy')
plt.plot(range(len(gbc_scores)),gbc_scores)
plt.show()


# 測試n_estimators參數對分類效果的影響
gbc_scores = []
for i in range(1,50):
    gbc.estimators_ = i
    gbc.fit(x_train, y_train)
    gbc_score = gbc.score(x_test, y_test)
    gbc_scores.append(gbc_score)

# 繪制結果
plt.figure()
plt.title('Gradient Boost')
plt.xlabel('n_estimators')
plt.ylabel('Accuracy')
plt.plot(range(1,50),gbc_scores)
plt.show()

gbc_scores = []
dt_scores = []
# 使用cross_val_score進行交叉驗證
for i in range(20):
    gbc_score = cross_val_score(gbc, cancer.data, cancer.target, cv=10).mean()
    gbc_scores.append(gbc_score)
    dt_score = cross_val_score(dt, cancer.data, cancer.target, cv=10).mean()
    dt_scores.append(dt_score)

# 繪制評分對比曲線
plt.figure()
plt.title('Gradient Boost VS Decision Tree')
plt.xlabel('Index')
plt.ylabel('Accuracy')
plt.plot(range(20),dt_scores,label = 'Decision Tree')
plt.plot(range(20),gbc_scores,label = 'Gradient Boost')
plt.legend()
plt.show()

機器學習之使用sklearn的随機森林算法對樣本資料進行分類，使用sklearn的AdaBoost和GradientBoost對乳腺癌資料進行分類可視化呈現

🥇🥇🥇1.使用sklearn的随機森林算法對樣本資料進行分類，要求：

🥈🥈🥈(1) 導入乳腺癌資料集

🏆🏆🏆(2) 對比随機森林算法和決策樹的分類效果；

🏀🏀🏀(3) 測試弱分類器個數n_estimators對分類精度的影響。

完整代碼：

可視化結果：

⚽⚽⚽⚽2.使用sklearn的AdaBoost和GradientBoost對乳腺癌資料進行分類，要求：

🎖🎖🎖(1) 導入乳腺癌資料集

🎲🎲🎰(2) 測試learning_rate參數對分類效果的影響；

👓👓🕶(3) 測試n_estimators參數對分類效果的影響。

完整代碼：

1.AdaBoost

可視化結果：

2.Gradient Boost

可視化結果：

繼續閱讀

資料集标注labelme、labelimg

手把手教你運用Python實作進階版人臉識别

拓端tecdat|R語言中編寫最小工作示例（MWRE）

資料集 | 服裝員工生産率預測資料集

目标檢測系列（IV）：YOLO V1、YOLO V2、YOLO V3

資料集 | 心髒病發作分析和預測資料集

資料集 | 克利夫蘭診所基金會心髒病資料集

資料集 | 心髒病患者資料集

資料集 | 各國人口壽命資料集

資料集 | 土耳其航空股價資料集

基于改進FCOS的鋼帶表面缺陷檢測

車道線檢測資料集

K-Fold 交叉驗證 (Cross-Validation)

資料集 | 網絡釣魚網站資料集

資料集 | 金融反欺詐資料集

資料集 | 2021東京奧運會獎牌榜資料集