人工智能必備數學基礎
- 函數
-
- 函數的定義
- 幾種函數
- 幾種特性
- 數列
- 極限
- 函數的連續性
- 函數的間斷點
- 導數
- 偏導數
- 方向導數
- 梯度
- 微積分
- 泰勒公式
-
- 麥克勞林公式
- SVD矩陣分解
- 似然函數
- 後驗機率估計
- 核函數
- 資訊熵
- 激活函數
-
- sigmoid
- tanh
- relu
- Leaky ReLU
高數、線代、機率論、統計分析
函數
函數的定義
幾種函數
幾種特性
奇偶、周期、單調
數列
極限
函數的連續性
函數的間斷點
導數
偏導數
方向導數
梯度
梯度為等高線上的法向量,朝更高方向發展。
微積分
以曲代直
泰勒公式
以直代曲
一點一世界
麥克勞林公式
SVD矩陣分解
矩陣x向量=向量【對向量作線性變換】,線性變換有拉伸、旋轉。通過表達式: A x = λ x Ax=\lambda x Ax=λx再利用: ( A − λ E ) x = 0 (A-\lambda E)x=0 (A−λE)x=0可以得到特征值 λ \lambda λ【特征值矩陣 ⋀ \bigwedge ⋀】,特征向量P。然後可以将矩陣A表示為 A = P ⋀ P − 1 A=P \bigwedge P^{-1} A=P⋀P−1
如果将特征值矩陣 ⋀ \bigwedge ⋀裡面的特征值 λ \lambda λ由大到小排列,取前k個特征值 λ \lambda λ,這些特征值裡面保留了矩陣A最明顯的特征,這樣這個表達式的應用場景為:1、降維。2、壓縮。
為了解決實際生活中的矩陣壓縮問題【矩陣特征提取問題】,我們常采用SVD矩陣分解,因為SVD矩陣分解的的特征向量P不是方陣,而是MXN的矩陣。
似然函數
與機率函數作對比。
機率是給定參數 θ \theta θ時樣本X=x的可能性,未發生,問樣本X的機率;似然是給定樣本X=x時參數 θ \theta θ的可能性,已發生,問參數是誰。
用實際例子舉例,打NBA時,機率:喬丹投絕殺球的機率,參數 θ \theta θ=喬丹;似然:投了絕殺球後,是誰絕殺的?。
後驗機率估計
後驗機率估計=似然x先驗
核函數
背景:如果我們能了解到關于某個物體的多元度資訊(多角度資訊:比如:年齡、性别、學曆等等),那麼我們可以對這個物體有個全面的了解。
核函數:在矩陣上面是求内積。
問題:多元的内積,往往意味着強大的計算量,解決:科學家發現,用低維内積的n次方,可以得到多元相同的結果。是以,我們利用低維得到的數字結果直接映射到高維。
高斯核函數:
- 公式: K ( x , y ) = e ∣ ∣ X − Y ∣ ∣ 2 2 σ 2 K(x,y) = e^{\frac{||X-Y||^2}{2\sigma^2}} K(x,y)=e2σ2∣∣X−Y∣∣2
- 公式的直覺了解:如果x與y相近,則結果為0,相當于一個點,如果x與y遙遠,則結果為1。
- 該公式的好處:将低維轉到高維,進而提取到深層次的特征。
- 參數 σ \sigma σ的對公式的影響: σ \sigma σ越小,棱角越鮮明,特征越明顯,切分的越厲害,越容易過拟合。
資訊熵
含義:物體内部的混亂程度(一件事發生的不确定性)
H ( X ) = − ∑ x ∈ X P ( x ) l o g P ( x ) H(X)=-\sum_{x \in X}P(x)logP(x) H(X)=−x∈X∑P(x)logP(x)
對公式的直覺了解:P(x) ∈ \in ∈(0,1),logP(x) ∈ ( − ∞ , 0 ) \in(-\infty,0) ∈(−∞,0),logP(x)的圖像:先抖後平緩。
注意:機率越小,熵值越大,越混亂。
是以,熵可以作為衡量名額。
激活函數
sigmoid
優點:将連續值壓縮到0-1區間上。
缺點:1、殺死梯度;2、圖像非原點中心對稱。
為何會殺死梯度:從圖像中可以看出 + ∞ , − ∞ +\infty,-\infty +∞,−∞處導函數接近水準,從公式推導可以了解到sigmoid的導函數的取值範圍在0-0.25之間,且趨近無窮時,該值趨近0。
缺點:3、輸出值全為整數會導緻梯度全為正或者全為負。4、優化更新會産生階梯式情況(比如兩點之間,最短距離為直線,但是該情況中為樓梯)。
tanh
優點:原點中心對稱;輸出在-1到1之間。
缺點:梯度消失現象依然存在,上同。
relu
優點:解決梯度消失現象,計算速度更快。
缺點:會殺死一部分神經元,梯度為0,神經元此時不會訓練,産生稀疏性,因為x<0時函數值均為0。
Leaky ReLU
優點:解決relu會殺死一部分神經元的情況。