本文是機器學習與數學基礎知識的第二集視訊,主要内容是微積分選講,共三部分知識點,與機器學習直接相關的是第二部分知識點微積分中的兩個機器學習算法——牛頓法和梯度下降法。
一 極限
極限的知識點是微分學的基礎,是導數定義的基礎。
1極限的通俗語言,數學記号,精确描述
2無窮小的比較:比較趨于0的快慢,以“無窮小階數”衡量
3重要極限:第1和4個式子是大學高數課本上的,注意第2個和3個式子,指數函數,對數函數和冥函數的關系
二 微分學:線性逼近
微分學的知識點,重點關注其核心思想:線性逼近,即對于複雜的曲線,用“以直代曲”進行線性逼近,以便于研究。同時,第二部分的知識點,是本文的重點所在,而微分學的知識點,重點在于關注,如何表示和實作“線性逼近”。
1一進制函數的一階導數的線性逼近
如上圖所示,導數的這種極限定義形式,我們都很熟悉;而其等價定義形式,我們很少關注,而這種等價定義形式即為線性逼近,将f(x)的值用f(x0)+L(x-x0)這種一次函數的直線形式逼近,o(x-x0)表示的是無窮小,即x趨近x0時,o(x-x0)等于0。
對于n階導數,可以用n-1階導數進行線性逼近。
2多元函數的微分
如上圖所示,二進制函數表示的曲面,仿照一進制函數的導數,可以用全微分(偏導數)進行線性逼近
同理,仿照一進制函數的n階導數,同樣可以用高階偏導數進行線性逼近,如上圖所示
3泰勒級數:多項式逼近
正如圖中所辨別的,泰勒級數是一進制函數微分學的頂峰。說白了,微分學的知識點1其實就是泰勒級數的多項式逼近。小編大學階段學習泰勒級數,隻知道這個公式不好記,從沒想到它有如此重要的作用和地位。下面是一些函數的泰勒級數公式,相信經曆過大學階段的同志會很熟悉。
泰勒級數應用于與逼近相關的數學問題,下面舉兩個泰勒級數的例子。
第一個例子是洛必達法則的推導,這裡注意了解“大括号”部分是一階泰勒級數的線性逼近;對于“圈住”的兩部分,是為了大家更好的了解這步推導。
第二個例子是微分方程的求解,(1)式為泰勒級數的定義,(2)是(1)式的二階導數,這裡需要注意,(2)寫成這樣的形式,是為了與(1)式中x的指數n一緻,便于寫出(3)式中系數之間的關系,求出泰勒級數的表達式,反推出(4)。
4牛頓法(一進制函數二次逼近)與梯度下降法(多元函數):代價函數的極小值
首先,我們先有一個概念:機器學習中的很多問題,是優化問題,即轉化為求解一個損失函數的極小值的問題;極小值分為局部的和全局的,在極小值處,對于一進制函數,其一階導數為0,而多元函數,其梯度為0(方向導數的最大值為0)。
在這裡,先看牛頓法,寫出二階泰勒級數,将無窮小除外的其餘部分看作二次函數,利用二次函數的極值點,來估計f(x)的極值點;在這裡,如下圖所示,先假設出極值在初始值x0附近,然後第一次估計得出極值在x1附近,疊代估計得到極值在xn附近。牛頓法,得出的極值點會與初始值的選取有關,選取的好,收斂的也快;同時,牛頓法有其缺陷性,有可能二次函數對應的是開口向上,估計得到的是極大值。
梯度下降法,針對多元函數(x是一個向量),是多元函數的一階逼近,本質上,也就是全微分的一階偏導數的線性逼近。将無窮小除外的其餘部分看作一次函數,該函數說明了極小值的方向(這裡我也不是很了解,視訊中也并未把梯度下降法深入講,隻有這一張ppt,大家可以先有個印象,預計後面的視訊中會講到)
5 小結
微分學的知識點,概括而言,即對局部進行線性逼近;然後,分兩方面,一進制函數,用泰勒級數進行線性逼近,多元函數,用全微分進行線性逼近;牛頓法是泰勒級數線性逼近的應用,梯度下降法是全微分線性逼近的應用。
三 Jensen不等式
1凸函數定義的推廣
下面第一張圖檔為凸函數的定義,第二張圖檔為Jensen不等式:f[E(x)]<=E[f(x)],即凸函數定義的推廣。
2證明:數學歸納法
(1)根據定義我們已經知道當 n = 2 的時候此結論成立,即凸函數的定義
(2)假設當n=N時,結論成立,即:如下圖(同時進行了必要的定義)
(3)那麼,當n=N+1時,有:
本文時我的第二篇部落格,歡迎大家留言,共同交流和學習。