機器學習 101：一文帶你讀懂梯度下降

原标題 | Machine Learning 101: An Intuitive Introduction to Gradient Descent

作者 | Thalles Silva

譯者 | 汪鵬（重慶郵電大學）、通夜（中山大學）

編輯：王立魚

英語原文：

https://towardsdatascience.com/machine-learning-101-an-intuitive-introduction-to-gradient-descent-366b77b52645

梯度下降無疑是大多數機器學習(ML)算法的核心和靈魂。我絕對認為你應該花時間去了解它。因為對于初學者來說，這樣做能夠讓你更好地了解大多數機器學習算法是如何工作的。另外，想要培養對複雜項目的直覺，了解基本的概念也是十分關鍵的。

為了了解梯度下降的核心，讓我們來看一個運作的例子。這項任務是這個領域的一項老任務——使用一些曆史資料作為先驗知識來預測房價。

我們的目标是讨論梯度下降。是以我們讓這個例子簡單一點，以便我們可以專注于重要的部分。

但是在我們開始之前，你可以點選此處擷取代碼

基本概念

假設你想爬一座很高的山，你的目标是最快到達山頂，可你環顧四周後，你意識到你有不止一條路可以走，既然你在山腳，但似乎所有選擇都能讓你離山頂更近。

如果你想以最快的方式到達頂峰，是以你要怎麼做呢？你怎樣才能隻邁出一步，而能夠離山頂最近?

到目前為止，我們還不清楚如何邁出這一步！而這就是梯度的用武之地。

正如可汗學院的這段視訊所述，梯度擷取了一個多變量函數的所有偏導數。

讓我們一步步來看看它是如何工作的。

用更簡單的話來說，導數是一個函數在某一點的變化率或斜率。

以f(x)=x²函數為例。f(x)的導數就是另一個函數f'(x)在一個定點x的值，f'(x)就是f(x)的斜率函數。在這種情況下，當x=2時，f(x) = x²的斜率是2 x，也就是2*2=4。

f(x) = x²在不同點的斜率。

簡單地說，導數指向上升最陡的方向。恰巧的是，梯度和導數基本上是一樣的。除了一點，即梯度是一個向量值函數，向量裡包含着偏導數。換句話說，梯度是一個向量，它的每一個分量都是對一個特定變量的偏導數。

以函數f(x,y)=2x²+y²為另一個例子。

這裡的f(x,y)是一個多變量函數。它的梯度是一個向量，其中包含了f(x,y)的偏導數，第一個是關于x的偏導數，第二個是關于y的偏導數。

如果我們計算f(x,y)的偏導數。

得到的梯度是以下這樣的向量:

請注意，其中每個元素都訓示了函數裡每個變量的最陡上升方向。換句話說，梯度指向函數增長最多的方向。

回到爬山的例子中，坡度指向的方向是最快到達山頂的方向。換句話說，梯度指向一個面更高的地方。

同樣的，如果我們有一個有四個變量的函數，我們會得到一個有四個偏導數的梯度向量。通常，一個有n個變量的函數會産生一個n維梯度向量。

但是對于梯度下降，我們不想讓f函數盡快地最大化，我們想讓它最小化。

是以讓我們先定義我們的任務，讓目标變得更清晰明确一點。

房價預測

我們的目标是基于曆史資料來預測房價。而想要建立一個機器學習模型，我們通常需要至少3個要素——問題T、性能度量P和經驗E，我們的模型将從這其中學習到一些模式知識。

為了解決問題T，我們将使用一個簡單的線性回歸模型。該模型将從經驗E中學習，經過訓練，模型就能将其知識推廣到未知資料中。

線性模型是一個很好的學習模型。它是許多其他ML算法的基礎，比如神經網絡和支援向量機。

在本例中，經驗E就是房屋資料集。房屋資料集包含了聖路易斯奧比斯波縣及其周邊地區最近的房地産清單。

資料集包含了781條資料記錄，可以在原文下載下傳CSV格式的資料檔案。為了簡便，在資料的8個特征中，我們隻關注其中的兩個特征 : 房屋大小和價格。在這781條記錄中，每一條記錄的房屋大小(以平方英尺為機關)将是我們的輸入特征，而價格則是我們的預測目标值。

此外，為了檢查我們的模型是否正确地從經驗E中學習到了模式知識，我們需要一個機制來衡量它的性能。是以，我們将平方誤差(MSE)的均值作為性能度量P。

多年來，MSE一直是線性回歸的标準。但從理論上講，任何其他誤差測量方法，比如絕對誤差，都是可用的。而MSE的一些優點是，它對誤差的衡量比絕對誤差更好。

現在我們已經公式化了我們的學習算法，讓我們深入研究代碼。

首先，我們使用pandas在python中加載資料，并分離房屋大小和價格特征。之後，我們對資料進行标準化，以防止某些特征的大小範圍與其他特征不同。而且，标準化過的資料在進行梯度下降時，收斂速度比其他方法快得多。

下面，你可以看到以平方米為機關的房價分布。

按面積計算的房價分布。資料被标準化到了[0,1]區間。

線性回歸模型的工作原理是在資料上畫一條線。是以，我們的模型由一個簡單的直線方程表示。

線性方程，m和b分别是斜率和y軸的截距，x變量是輸入值。

對于線性模型，斜率m和y軸的截距b是兩個自由的參數。我們則要通過改變這兩個參數來找到最好的直線方程。

我們将對它們疊代執行一些細小的改變，這樣它就可以沿着誤差曲面上最陡的下降方向走。在每次疊代之後，這些權重變化将改善我們的模型，使得它能夠表示資料集的趨勢。

在繼續往下看之前，請記住我們要取梯度的反方向來進行梯度下降。

你可以把梯度下降想象成一個球滾下山谷。我們想讓它落在最深的山谷裡，然而很明顯，我們看到實際情況可能會出錯。

打個比方，我們可以把梯度下降想象成一個球滾下山谷。最深的山谷是最優的全局最小值，這是我們的目标。

根據球開始滾動的位置，它可能停在某一個山谷的底部。但不是最低的。這叫做局部極小值，在我們的模型中，山谷就是誤差面。

注意，在類比中，并不是所有的局部極小值都是糟糕的。實際上其中一些幾乎和最低的(全局)一樣低(好)。事實上，對于高維誤差曲面，最常見的方法是使用這些局部極小值中的一個(其實也不是很糟糕)。

類似地，我們初始化模型權重的方法可能會導緻它停留在局部極小值。為了避免這種情況，我們從均值為零且方差較小的随機正态分布中初始化兩個權值向量。

在每次疊代中，我們将取資料集的一個随機子集，并将其與權重線性組合。這個子集稱為迷你批處理(mini-batch)。線上性組合後，我們把得到的向量輸入MSE函數，計算新的誤差。

利用這個誤差，我們可以計算出誤差的偏導數，然後得到梯度。

首先，我們得到關于W0的偏導數：

W0的偏導數

接下來，我們求W1的偏導數

W1的偏導數

由這兩個偏導數，我們可以得到梯度向量：

梯度向量

其中Err是MSE錯誤函數。

有了這個，我們的下一步是使用梯度更新權重向量W0和W1，以最小化誤差。

我們想要更新權重，以便它們可以在下一次疊代中将錯誤降低。我們需要使它們遵循每個相應梯度信号的相反方向。為此，我們将在這個方向上采取小尺寸η的小步驟。

步長η是學習率，它控制學習速度。根據經驗，一個好的起點是0.1。最後，更新步驟規則設定為：

在代碼中，完整的模型看起來像這樣。檢視兩個梯度DW0和DW1前面的減号。這保證了我們将在與梯度相反的方向上采取步驟。

更新權重後，我們使用另一個随機小批量重複該過程，就是這樣。

逐漸地，每次重量更新導緻線路中的小的移動朝向其最佳表示。最後，當誤差方差足夠小時，我們就可以停止學習。

随時間變換的線性模型。第一次權重更新使線條快速達到理想的表示。

此版本的梯度下降稱為迷你批處理（Mini-Batch）随機梯度下降。在這個版本中，我們使用一小部分訓練資料來計算梯度。每個小批量梯度提供最佳方向的近似值。即使梯度沒有指向确切的方向，實際上它也會收斂到非常好的解決方案。

每一個Epoch的錯誤信号。請注意，在非常快地減小誤差信号之後，模型會減慢并收斂。

如果你仔細觀察錯誤圖表，你會注意到，在開始時學習速度會更快。

然而，在經過一些Epoch之後，它會放慢速度并保持平穩。這是因為，在開始時，指向最陡下降的梯度向量的幅度很長。結果，兩個權重變量W0和W1遭受更大的變化。

接着，随着它們越來越靠近誤差表面的頂點，梯度逐漸變得越來越小，這導緻了權重的非常小的變化。

最後，學習曲線穩定，并且過程完成。雷鋒網(公衆号：雷鋒網)雷鋒網雷鋒網

想要繼續檢視該篇文章相關連結和參考文獻？

點選【機器學習101：一文帶你讀懂梯度下降】即可通路！

今日部落格推薦：「元學習」解析：學習如何梯度下降與學習新的算法

本文作者 Cody Marie Wild，她是一位機器學習領域的資料科學家，在生活中還是名貓咪鏟屎官，她鐘愛語言和簡潔優美的系統。在這篇文章中，Cody 介紹了元學習的基本概念和方法類别，讨論了「元學習」到底在學什麼、又有哪些限制。

詳情檢視點選：

https://ai.yanxishe.com/page/blogDetail/5798

機器學習 101：一文帶你讀懂梯度下降

繼續閱讀

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

筆試面試題目：滑動視窗(二)

27. Remove Element(清單)題目代碼

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希