決策樹:從根節點開始一步步走到葉子節點(決策),所有的資料最終都會落到葉子節點,既可以做分類也可以做回歸
決策樹思想,實際上就是尋找最純淨的劃分方法,這個最純淨在數學上叫純度,純度通俗點了解就是目标變量要分得足夠開(y=1的和y=0的混到一起就會不純)。另一種了解是分類誤差率的一種衡量。實際決策樹算法往往用到的是,純度的另一面也即不純度,下面是不純度的公式。不純度的選取有多種方法,每種方法也就形成了不同的決策樹方法,比如ID3算法使用資訊增益作為不純度;C4.5算法使用資訊增益率作為不純度;CART算法使用基尼系數作為不純度。
樹的組成
根節點:第一個選擇點
非葉子節點與分支:中間過程
葉子節點:最終的決策結果
決策樹的衡量标準——熵
熵:熵是表示随機變量不确定性的度量(解釋:說白了就是物體内部的混亂程度,比如雜貨市場裡面什麼都有
那肯定混亂呀,專賣店裡面隻賣一個牌子的那就穩定多啦)
我們在學習決策樹的時候——如何決策一個節點的選擇呢?
資訊增益:表示特征X使得類Y的不确定性減少的程度。(分類後的專一性,希望分類後的結果是同類在一起)
決策樹剪枝政策
為什麼要剪枝:決策樹過拟合風險很大,理論上可以完全分得開資料(想象一下,如果樹足夠龐大,每個葉子節點不就一個資料了嘛)
剪枝政策:預剪枝,後剪枝
預剪枝:邊建立決策樹邊進行剪枝的操作(更實用)
後剪枝:當建立完決策樹後來進行剪枝操作
內建算法:
Bagging模型
全稱: bootstrap aggregation(說白了就是并行訓練一堆分類器)
最典型的代表就是随機森林啦
森林:很多個決策樹并行放在一起
随機:資料采樣随機,特征選擇随機
随機森林——構造樹模型
随機森林優勢
它能夠處理很高次元(feature很多)的資料,并且不用做特征選擇
在訓練完後,它能夠給出哪些feature比較重要
可以進行可視化展示,便于分析
容易做成并行化方法,速度比較快