損失函數
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIyVGduV2YfNWawNCM38FdsYkRGZkRG9lcvx2bjxiNx8VZ6l2cs0DNyIWesdVWv5kMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL4QDOwIDMzQTM4ADMxAjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
梯度下降
- 随機初始化起始位w0
- 在w0處對損失函數求導(偏導)
- w1=w0-學習率*w0處的倒數
- 一直重複計算,直到導數為0,或者達到最大疊代次數。
Generalization
- 泛化 (generalization) 是指神經網絡對未在訓練 (學習) 過程中遇到的資料可以得到合理的輸出。
- 使真實資料的誤差更小。
- 一個更複雜的模型可以使訓練集上的誤差更小,但是不一定能使測試集上的誤差也更小(過泛化)
- 損失函數+很小的wi,可以使預測的函數曲線更加平滑。
- 多平滑?𝜆的選擇。
- 𝜆越大,越平滑,在訓練集上的誤差越小。
- 不能太過平滑。
考慮更多參數的模型
- 訓示函數:取真為1,假為0.
李宏毅機器學習筆記1:Regression損失函數梯度下降Generalization