決策樹如何防止過拟合

2022-12-22 23:50:00

決策樹在長成的過程中極易容易出現過拟合的情況，導緻泛化能力低。主要有兩種手段可以用于防止過拟合。

Early Stopping，在完全長成以前停止，以防止過拟合。主要有以下3種方式：

“提前停止”是一個不錯的政策，但是在實際的執行中會越到一些麻煩。比如「其中的第2點，如果下一次切分沒有降低誤差，則停止切分。」一看貌似很有道理，但是很容易舉出反例：

對一個XOR的資料集生成決策樹：

下面如果使用x[1]切分：

又或者用x[2]切分：

發現，無論選擇哪一個次元進行切分都不會使得訓練誤差降低了。是以根據Early Stopping，僅僅長成隻有一個節點的stump。但是實際上：

繼續切下去，能學成一顆具有良好區分度的決策樹。是以「提前停止」的第2種情況既有利也有弊：

我們通過一顆決策樹的葉子結點個數來定義這棵樹有多複雜。

但是樹太簡單也不好，訓練誤差太大，欠拟合。是以，訓練出一顆好的決策樹就是在樹的訓練誤差與複雜程度之間做權衡。

寫成數學公式，可以表示為：

有一顆已經長成的樹：

從底部開始考慮，第一個要檢查的切分點是Term：

假設懲罰性lambda是0.3：

繼續閱讀