Chaper 1(three)
1.3. Model Selection
在之前提到的多項式曲線拟合中就可以看出,多項式的最高次數影響着所模組化型的對測試資料(testing data)性能,項數小,拟合效果不好,項數過大,容易出現過拟合現象(over-fitting)。這就涉及到了一個模型選擇的問題。
如果我們有大量的資料,可以用來建立多個模型,然後再使用同一獨立的資料集去評價各個模型的性能,選取性能最好的那個模型及其參數。如果使用小資料多次疊代進行模型比較選擇,容易出現過拟的現象。但是,在許多情況下,提供給模組化的訓練和測試資料都十分有限,又想建個好模型,怎麼辦呢?
解決這個窘境的辦法之一就是使用交叉驗證(cross-validation),将可用的資料集分成S份(一般是分成相同大小),用S-1份去訓練各個模型,用剩下的一份去測試模型,如此重複S次,将各個模型的性能平均,選取平均性能最好的模型和參數。圖解如下:
如果可用資料集規模特别的小,可以考慮使S=N,N是可用資料的樣本個數,這被稱為leave-one-out。
交叉驗證的主要缺點就是S決定了模組化比較過程中的疊代次數,如果S過大的話,而且單個模型中還會有多個複雜的模型參數,這會造成大量的計算花費。
是以,理想的情況是僅使用訓練資料(training data),對多個模型和參數的選擇比較在一次訓練過程(training run)完成。是以我們要找到一種僅依賴于訓練資料并且不會引起過拟的性能評估方法。在曆史上,其中之一就是the Akaike information criterion, or AIC (Akaike, 1974),通過使下面的式子達到最大來選擇模型:
其中,
是最優的似然函數,
是模型中的參數個數。其他的例子還有Bayesian information criterion, or BIC,不過在本書4.4.1在講,是以本章的标題是Introduction,隻是介紹性的,詳細的東西在以後的章節。
To be continued…