本文為本人另兩篇部落格機器學習/計算機視覺(cv)實習面試資料整理(附位元組、阿裡、騰訊、美團面經)以及機器學習知識點整理下的子内容,有需要的朋友按需自取~
另:本文隻是知識點的整理概括,更為詳細的可以參考我每個部分給出的連結~
目錄
- 內建學習
-
- 分類
- Boosting變體
- Bagging變體
- 決策樹
- 随機森林
- AdaBoost
- GBDT
- XGBoost
- LightGBM
- 內建融合方法
內建學習
詳細介紹參考機器學習算法之Boosting。
內建學習是通過訓練弱幹個弱學習器,并通過一定的結合政策,進而形成一個強學習器。有時也被稱為多分類器系統(multi-classifier system)、基于委員會的學習(committee-based learning)等。
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHLwcmaNlXW61UNNpHW4Z0MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL1ADO2ATOzUTM5IDNwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
內建學習先産生一組“個體學習器”(individual learner),再用某種政策将它們結合起來。通常來說,很多現有的學習算法都足以從訓練資料中産生一個個體學習器。一般來說,我們會将這種由個體學習器內建的算法分為兩類:
- 同質(homogeneous)
- 異質(heterogenous)
其中用的比較多的是同質學習器。同質學習器按照個體學習器之間是否存在依賴關系可以分為兩類:
- 第一個是串行生成,代表算法是boosting系列算法;
- 第二個是并行生成,代表算法是bagging和随機森林(Random Forest)系列算法;
分類
目前,有三種常見的內建學習架構:bagging,boosting和stacking。(其餘分類:線性權重融合法、交叉融合法(blending)、瀑布融合法、特征融合法、預測融合法;)
- bagging:從訓練集從進行子抽樣組成每個基模型所需要的子訓練集,對所有基模型預測的結果進行綜合産生最終的預測結果:
內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法 - boosting:訓練過程為階梯狀,基模型按次序一一進行訓練(實作上可以做到并行),基模型的訓練集按照某種政策每次都進行一定的轉化。對所有基模型預測的結果進行線性綜合産生最終的預測結果:
內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法 - stacking:将訓練好的所有基模型對訓練基進行預測,第j個基模型對第i個訓練樣本的預測值将作為新的訓練集中第i個樣本的第j個特征值,最後基于新的訓練集進行訓練。同理,預測的過程也要先經過所有基模型的預測形成新的測試集,最後再對測試集進行預測:.
內建樹知識點概括內建學習決策樹随機森林AdaBoostGBDTXGBoostLightGBM內建融合方法
Boosting變體
- AdaBoost;
- GBDT;
- XGBoost;
- LightGBM;
Bagging變體
- 随機森林(RF);
決策樹
決策樹、随機森林知識點概括
随機森林
決策樹、随機森林知識點概括
AdaBoost
AdaBoost算法概述
GBDT
GBDT(梯度提升樹)算法概述
XGBoost
XGBoost算法概述
LightGBM
LightGBM算法概述
內建融合方法
內建(模型)融合方法總結