天天看點

內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法

本文為本人另兩篇部落格機器學習/計算機視覺(cv)實習面試資料整理(附位元組、阿裡、騰訊、美團面經)以及機器學習知識點整理下的子内容,有需要的朋友按需自取~

另:本文隻是知識點的整理概括,更為詳細的可以參考我每個部分給出的連結~

目錄

  • 內建學習
    • 分類
    • Boosting變體
    • Bagging變體
  • 決策樹
  • 随機森林
  • AdaBoost
  • GBDT
  • XGBoost
  • LightGBM
  • 內建融合方法

內建學習

詳細介紹參考機器學習算法之Boosting。

內建學習是通過訓練弱幹個弱學習器,并通過一定的結合政策,進而形成一個強學習器。有時也被稱為多分類器系統(multi-classifier system)、基于委員會的學習(committee-based learning)等。

內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法

內建學習先産生一組“個體學習器”(individual learner),再用某種政策将它們結合起來。通常來說,很多現有的學習算法都足以從訓練資料中産生一個個體學習器。一般來說,我們會将這種由個體學習器內建的算法分為兩類:

  • 同質(homogeneous)
  • 異質(heterogenous)

其中用的比較多的是同質學習器。同質學習器按照個體學習器之間是否存在依賴關系可以分為兩類:

  • 第一個是串行生成,代表算法是boosting系列算法;
  • 第二個是并行生成,代表算法是bagging和随機森林(Random Forest)系列算法;
內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法
內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法

分類

目前,有三種常見的內建學習架構:bagging,boosting和stacking。(其餘分類:線性權重融合法、交叉融合法(blending)、瀑布融合法、特征融合法、預測融合法;)

  • bagging:從訓練集從進行子抽樣組成每個基模型所需要的子訓練集,對所有基模型預測的結果進行綜合産生最終的預測結果:
    內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法
  • boosting:訓練過程為階梯狀,基模型按次序一一進行訓練(實作上可以做到并行),基模型的訓練集按照某種政策每次都進行一定的轉化。對所有基模型預測的結果進行線性綜合産生最終的預測結果:
    內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法
  • stacking:将訓練好的所有基模型對訓練基進行預測,第j個基模型對第i個訓練樣本的預測值将作為新的訓練集中第i個樣本的第j個特征值,最後基于新的訓練集進行訓練。同理,預測的過程也要先經過所有基模型的預測形成新的測試集,最後再對測試集進行預測:.
    內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法

Boosting變體

  • AdaBoost;
  • GBDT;
  • XGBoost;
  • LightGBM;

Bagging變體

  • 随機森林(RF);

決策樹

決策樹、随機森林知識點概括

随機森林

決策樹、随機森林知識點概括

AdaBoost

AdaBoost算法概述

GBDT

GBDT(梯度提升樹)算法概述

XGBoost

XGBoost算法概述

LightGBM

LightGBM算法概述

內建融合方法

內建(模型)融合方法總結

繼續閱讀