線性回歸和正則化（Regularization）

2023-04-12 10:40:20

1.線性回歸介紹

X指訓練資料的feature，beta指待估計得參數。

詳細見http://zh.wikipedia.org/wiki/%E4%B8%80%E8%88%AC%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B

使用最小二乘法拟合的普通線性回歸是資料模組化的基本方法。

線性回歸和正則化（Regularization）

令最小二乘項的偏導為0(為0時RSS項最小），求Beta估計值，得到最小二乘的向量形式。

線性回歸和正則化（Regularization）

最小二乘其實就是找出一組參數beta使得訓練資料到拟合出的資料的歐式距離最小。如下圖所示，使所有紅點（訓練資料）到平面的距離之和最小。

線性回歸和正則化（Regularization）

圖來源（ESL p45)

最小二乘的幾何解釋：找到一個投影矩陣，使得y到feature矩陣的線性子空間距離最短。如下圖所示

線性回歸和正則化（Regularization）

線上性模型中，存在過拟合問題(下圖右一）：

線性回歸和正則化（Regularization）

是以針對過拟合問題，通常會考慮兩種途徑來解決：

a) 減少特征的數量：

-人工的選擇保留哪些特征；

-模型選擇

b) 正則化

-保留所有的特征，但是降低參數θj的量/值；

3. 在這裡我們介紹正則化方法

主要是嶺回歸（ridge regression）和lasso回歸。通過對最小二乘估計加入懲罰限制，使某些系數的估計非常小或為0。

嶺回歸在最小化RSS的計算裡加入了一個收縮懲罰項（正則化的l2範數）

線性回歸和正則化（Regularization）

對誤差項進行求偏導，令偏導為零得：

線性回歸和正則化（Regularization）

Lasso回歸

lasso是在RSS最小化的計算中加入一個l1範數作為罰限制：

線性回歸和正則化（Regularization）

為什麼加了懲罰因子就會使得參數變低或零呢？根據拉格朗日乘法算子，這個問題可以轉換成一個帶限制的求極小值問題。

線性回歸和正則化（Regularization）

其收斂示意圖如下所示，左是Ridge回歸，右是lasso回歸。黑點表示最小二乘的收斂中心，藍色區域是加了乘法項的限制，其交點就是用相應regularization得到的系數在系數空間的表示。

線性回歸和正則化（Regularization）

---由xjp整理

線性回歸和正則化（Regularization）

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告