目錄:
- 🌵🌵🌵前言
-
-
- 一、評估假設
-
-
- 1、線性回歸和平方誤差标準時,測量誤差的定義
- 2、分類問題(例如邏輯回歸)時,測量誤差的定義
-
- 二、模型選擇
-
-
- 實際評估假設的方法
-
- 三、診斷偏差與方差
-
-
- 1、初步了解
- 2、算法正則化
-
- 四、學習曲線
-
-
- 1、高偏差情況下的學習曲線
- 2、高方差情況下的學習曲線
-
- 五、總結修正操作
-
- ❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
🌵🌵🌵前言
✨你好啊,我是“ 怪& ”,是一名在校大學生哦。
🌍首頁連結:怪&的個人部落格首頁
☀️博文主更方向為:課程學習知識、作業題解、期末備考。随着專業的深入會越來越廣哦…一起期待。
❤️一個“不想讓我曾沒有做好的也成為你的遺憾”的部落客。
💪很高興與你相遇,一起加油!
一、評估假設
将樣本劃分為訓練集和測試集 随機選擇 比例建議:7:3
學習的是如何分辨偏差與方差的問題,與評估假設,如何解決偏差較大(欠拟合)、方差較大(過拟合)的問題
1、線性回歸和平方誤差标準時,測量誤差的定義
最小化訓練集的J(θ)得到θ
帶入測試集求誤差
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLxYWNiNTM1EWNyITYilzYiZDMxQDMiJGMwgjZkNWO5E2Lc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
2、分類問題(例如邏輯回歸)時,測量誤差的定義
0/1錯誤分類度量定義的測試誤差
二、模型選擇
取最小的測試誤差 即 Min(J_test)
先根據不同的假設函數求出令損失函數最小的參數θ
然後将此θ帶入測試集,求出在測試集中損失函數最小的θ(即在測試集上拟合良好)
此為用測試集拟合得到的選擇參數d(即哪一表達式),再在測試集上評估假設便不太合理,是以假設可能過拟合
如果測試集很大,可能效果不會很差,但實際上這種操作并不被建議
實際評估假設的方法
把樣本分為:訓練集、交叉驗證集、測試集
60%:20%:20%
由驗證集選擇模型,用測試集評價此模型的泛化誤差
三、診斷偏差與方差
即要麼欠拟合,要麼過拟合
1、初步了解
粉色線條為訓練誤差,紅色線條為驗證集誤差
當d(選取的特征)越來越多時,其在訓練集上會拟合的越來越好,即其損失函數J會越來越小
當d(選取的特征)越來越大(逐漸接近最優d值),其在驗證集上的J會越來越小。
當d(選取的特征)越來越大(持續大于且遠離最優d值),其在驗證集上的J會越來越大。
高偏差問題(偏差):訓練集和驗證集的誤差都很大
高方差問題(方差):訓練集誤差較小,測試集誤差較大
選擇不同的模型,即參數
2、算法正則化
正則化是為了防止過拟合
如何自動的選擇一個合适的正則化參數值lambda
當加入正則化向的時候,J_train,J_cv,J_test定義仍是不加正則化項數的。
選擇不同的正則化參數lambda
lambda越小等于其沒有緩解過拟合的情況
lambda過大,等于其過分緩解過拟合情況導緻其出現欠拟合
四、學習曲線
當樣本數逐漸增大時:
訓練集上的誤差越來越大(函數對所有樣本的拟合效果不能保證)
交叉驗證集上的誤差越來越小(由于樣本數量愈大,其泛化能力愈好)
1、高偏差情況下的學習曲線
結論:如果處于高偏差狀态,增加樣本數量無益
且訓練誤差與驗證集誤差都很大
2、高方差情況下的學習曲線
當訓練樣本增加時,仍會有些過拟合,但想要對全部資料拟合很好,則十分困難
在高方差的情形,使用更多的訓練資料,對改進算法有幫助的,
當準備改進學習算法時,就需要畫出學習曲線,判斷情況,偏差/方差問題
五、總結修正操作
❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
今天是20歲的第一天