天天看點

超參數momentum與weight-decay的作用

一、weight decay(權值衰減)使用的目的是防止過拟合。在損失函數中,weight decay是放在正則項(regularization)前面的一個系數,正則項一般訓示模型的複雜度,是以weight decay的作用是調節模型複雜度對損失函數的影響,若weight decay很大,則複雜的模型損失函數的值也就大。

二、momentum是梯度下降法中一種常用的加速技術。對于一般的SGD,其表達式為

x←x−α∗dx

,x沿負梯度方向下降。而帶momentum項的SGD則寫生如下形式:

v=β∗v−a∗dxx←x+v

其中 β 即momentum系數,通俗的了解上面式子就是,如果上一次的momentum(即 v <script type="math/tex" id="MathJax-Element-28">v</script>)與這一次的負梯度方向是相同的,那這次下降的幅度就會加大,是以這樣做能夠達到加速收斂的過程。

作者:陳永志

連結:https://www.zhihu.com/question/24529483/answer/114711446

來源:知乎

著作權歸作者所有,轉載請聯系作者獲得授權。

繼續閱讀