天天看點

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

目錄:

  • 🌵🌵🌵前言
      • 一、評估假設
          • 1、線性回歸和平方誤差标準時,測量誤差的定義
          • 2、分類問題(例如邏輯回歸)時,測量誤差的定義
      • 二、模型選擇
          • 實際評估假設的方法
      • 三、診斷偏差與方差
          • 1、初步了解
          • 2、算法正則化
      • 四、學習曲線
          • 1、高偏差情況下的學習曲線
          • 2、高方差情況下的學習曲線
      • 五、總結修正操作
  • ❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

🌵🌵🌵前言

✨你好啊,我是“ 怪& ”,是一名在校大學生哦。

🌍首頁連結:怪&的個人部落格首頁

☀️博文主更方向為:課程學習知識、作業題解、期末備考。随着專業的深入會越來越廣哦…一起期待。

❤️一個“不想讓我曾沒有做好的也成為你的遺憾”的部落客。

💪很高興與你相遇,一起加油!

一、評估假設

将樣本劃分為訓練集和測試集 随機選擇 比例建議:7:3

學習的是如何分辨偏差與方差的問題,與評估假設,如何解決偏差較大(欠拟合)、方差較大(過拟合)的問題
1、線性回歸和平方誤差标準時,測量誤差的定義

最小化訓練集的J(θ)得到θ

帶入測試集求誤差

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
2、分類問題(例如邏輯回歸)時,測量誤差的定義
0/1錯誤分類度量定義的測試誤差
【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

二、模型選擇

取最小的測試誤差 即 Min(J_test)

先根據不同的假設函數求出令損失函數最小的參數θ

然後将此θ帶入測試集,求出在測試集中損失函數最小的θ(即在測試集上拟合良好)

此為用測試集拟合得到的選擇參數d(即哪一表達式),再在測試集上評估假設便不太合理,是以假設可能過拟合

如果測試集很大,可能效果不會很差,但實際上這種操作并不被建議

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
實際評估假設的方法

把樣本分為:訓練集、交叉驗證集、測試集

60%:20%:20%

由驗證集選擇模型,用測試集評價此模型的泛化誤差

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

三、診斷偏差與方差

即要麼欠拟合,要麼過拟合

1、初步了解

粉色線條為訓練誤差,紅色線條為驗證集誤差

當d(選取的特征)越來越多時,其在訓練集上會拟合的越來越好,即其損失函數J會越來越小

當d(選取的特征)越來越大(逐漸接近最優d值),其在驗證集上的J會越來越小。

當d(選取的特征)越來越大(持續大于且遠離最優d值),其在驗證集上的J會越來越大。

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

高偏差問題(偏差):訓練集和驗證集的誤差都很大

高方差問題(方差):訓練集誤差較小,測試集誤差較大

選擇不同的模型,即參數

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
2、算法正則化

正則化是為了防止過拟合

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

如何自動的選擇一個合适的正則化參數值lambda

當加入正則化向的時候,J_train,J_cv,J_test定義仍是不加正則化項數的。

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

選擇不同的正則化參數lambda

lambda越小等于其沒有緩解過拟合的情況

lambda過大,等于其過分緩解過拟合情況導緻其出現欠拟合

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

四、學習曲線

當樣本數逐漸增大時:

訓練集上的誤差越來越大(函數對所有樣本的拟合效果不能保證)

交叉驗證集上的誤差越來越小(由于樣本數量愈大,其泛化能力愈好)

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
1、高偏差情況下的學習曲線

結論:如果處于高偏差狀态,增加樣本數量無益

且訓練誤差與驗證集誤差都很大

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!
2、高方差情況下的學習曲線
當訓練樣本增加時,仍會有些過拟合,但想要對全部資料拟合很好,則十分困難

在高方差的情形,使用更多的訓練資料,對改進算法有幫助的,

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

當準備改進學習算法時,就需要畫出學習曲線,判斷情況,偏差/方差問題

五、總結修正操作

【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!

今天是20歲的第一天
【吳恩達機器學習-筆記整理】診斷偏差較大(欠拟合)、方差較大(過拟合)的情況及其解決方案🌵🌵🌵前言❤️❤️❤️忙碌的敲代碼也不要忘了浪漫鴨!