梯度下降算法原理講解

1. 概述

梯度下降（gradient descent）在機器學習中應用十分的廣泛，不論是線上性回歸還是Logistic回歸中，它的主要目的是通過疊代找到目标函數的最小值，或者收斂到最小值。

本文将從一個下山的場景開始，先提出梯度下降算法的基本思想，進而從數學上解釋梯度下降算法的原理，解釋為什麼要用梯度，最後實作一個簡單的梯度下降算法的執行個體！

2. 梯度下降算法

2.1 場景假設

梯度下降法的基本思想可以類比為一個下山的過程。

假設這樣一個場景：一個人被困在山上，需要從山上下來(找到山的最低點，也就是山谷)。但此時山上的濃霧很大，導緻可視度很低；是以，下山的路徑就無法确定，必須利用自己周圍的資訊一步一步地找到下山的路。這個時候，便可利用梯度下降算法來幫助自己下山。怎麼做呢，首先以他目前的所處的位置為基準，尋找這個位置最陡峭的地方，然後朝着下降方向走一步，然後又繼續以目前位置為基準，再找最陡峭的地方，再走直到最後到達最低處；同理上山也是如此，隻是這時候就變成梯度上升算法了

2.2 梯度下降

梯度下降的基本過程就和下山的場景很類似。

首先，我們有一個可微分的函數。這個函數就代表着一座山。我們的目标就是找到這個函數的最小值，也就是山底。根據之前的場景假設，最快的下山的方式就是找到目前位置最陡峭的方向，然後沿着此方向向下走，對應到函數中，就是找到給定點的梯度，然後朝着梯度相反的方向，就能讓函數值下降的最快！因為梯度的方向就是函數之變化最快的方向(在後面會詳細解釋)

是以，我們重複利用這個方法，反複求取梯度，最後就能到達局部的最小值，這就類似于我們下山的過程。而求取梯度就确定了最陡峭的方向，也就是場景中測量方向的手段。那麼為什麼梯度的方向就是最陡峭的方向呢？接下來，我們從微分開始講起：

2.2.1 微分

看待微分的意義，可以有不同的角度，最常用的兩種是：

函數圖像中，某點的切線的斜率
函數的變化率

幾個微分的例子：

1.單變量的微分，函數隻有一個變量時

2.多變量的微分，當函數有多個變量的時候，即分别對每個變量進行求微分

2.2.2 梯度

梯度實際上就是多變量微分的一般化。

下面這個例子：

我們可以看到，梯度就是分别對每個變量進行微分，然後用逗号分割開，梯度是用<>包括起來，說明梯度其實一個向量。

梯度是微積分中一個很重要的概念，之前提到過梯度的意義

在單變量的函數中，梯度其實就是函數的微分，代表着函數在某個給定點的切線的斜率
在多變量函數中，梯度是一個向量，向量有方向，梯度的方向就指出了函數在給定點的上升最快的方向

**這也就說明了為什麼我們需要千方百計的求取梯度！**我們需要到達山底，就需要在每一步觀測到此時最陡峭的地方，梯度就恰巧告訴了我們這個方向。梯度的方向是函數在給定點上升最快的方向，那麼梯度的反方向就是函數在給定點下降最快的方向，這正是我們所需要的。是以我們隻要沿着梯度的方向一直走，就能走到局部的最低點！

2.3 數學解釋

首先給出數學公式：

此公式的意義是：J是關于Θ的一個函數，我們目前所處的位置為Θ0點，要從這個點走到J的最小值點，也就是山底。首先我們先确定前進的方向，也就是梯度的反向，然後走一段距離的步長，也就是α，走完這個段步長，就到達了Θ1這個點！

2.3.1 α

α在梯度下降算法中被稱作為學習率或者步長，意味着我們可以通過α來控制每一步走的距離，以保證不要步子跨的太大扯着蛋，哈哈，其實就是不要走太快，錯過了最低點。同時也要保證不要走的太慢，導緻太陽下山了，還沒有走到山下。是以α的選擇在梯度下降法中往往是很重要的！α不能太大也不能太小，太小的話，可能導緻遲遲走不到最低點，太大的話，會導緻錯過最低點！

2.3.2 梯度要乘以一個負号

梯度前加一個負号，就意味着朝着梯度相反的方向前進！我們在前文提到，梯度的方向實際就是函數在此點上升最快的方向！而我們需要朝着下降最快的方向走，自然就是負的梯度的方向，是以此處需要加上負号；那麼如果時上坡，也就是梯度上升算法，當然就不需要添加負号了。

3. 執行個體

我們已經基本了解了梯度下降算法的計算過程，那麼我們就來看幾個梯度下降算法的小執行個體，首先從單變量的函數開始，然後介紹多變量的函數。

3.1 單變量函數的梯度下降

我們假設有一個單變量的函數

函數的微分，直接求導就可以得到

初始化，也就是起點，起點可以随意的設定，這裡設定為1

學習率也可以随意的設定，這裡設定為0.4

根據梯度下降的計算公式

我們開始進行梯度下降的疊代計算過程：

如圖，經過四次的運算，也就是走了四步，基本就抵達了函數的最低點，也就是山底

3.2 多變量函數的梯度下降

我們假設有一個目标函數

現在要通過梯度下降法計算這個函數的最小值。我們通過觀察就能發現最小值其實就是 (0，0)點。但是接下來，我們會從梯度下降算法開始一步步計算到這個最小值！

我們假設初始的起點為：

初始的學習率為：

函數的梯度為：

進行多次疊代：

我們發現，已經基本靠近函數的最小值點

原網址：https://blog.csdn.net/qq_41800366/article/details/86583789