1.線性回歸介紹
X指訓練資料的feature,beta指待估計得參數。
詳細見http://zh.wikipedia.org/wiki/%E4%B8%80%E8%88%AC%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B
使用最小二乘法拟合的普通線性回歸是資料模組化的基本方法。
令最小二乘項的偏導為0(為0時RSS項最小),求Beta估計值,得到最小二乘的向量形式。
最小二乘其實就是找出一組參數beta使得訓練資料到拟合出的資料的歐式距離最小。如下圖所示,使所有紅點(訓練資料)到平面的距離之和最小。
圖來源(ESL p45)
最小二乘的幾何解釋:找到一個投影矩陣,使得y到feature矩陣的線性子空間距離最短。如下圖所示
線上性模型中,存在過拟合問題(下圖右一):
是以針對過拟合問題,通常會考慮兩種途徑來解決:
a) 減少特征的數量:
-人工的選擇保留哪些特征;
-模型選擇
b) 正則化
-保留所有的特征,但是降低參數θj的量/值;
3. 在這裡我們介紹正則化方法
主要是嶺回歸(ridge regression)和lasso回歸。通過對最小二乘估計加入懲罰限制,使某些系數的估計非常小或為0。
嶺回歸在最小化RSS的計算裡加入了一個收縮懲罰項(正則化的l2範數)
對誤差項進行求偏導,令偏導為零得:
Lasso回歸
lasso是在RSS最小化的計算中加入一個l1範數作為罰限制:
-
為什麼加了懲罰因子就會使得參數變低或零呢?根據拉格朗日乘法算子,這個問題可以轉換成一個帶限制的求極小值問題。
其收斂示意圖如下所示,左是Ridge回歸,右是lasso回歸。黑點表示最小二乘的收斂中心,藍色區域是加了乘法項的限制,其交點就是用相應regularization得到的系數在系數空間的表示。
---由xjp整理