人工智能必備數學基礎

函數
- 函數的定義
- 幾種函數
- 幾種特性
- 數列
- 極限
- 函數的連續性
- 函數的間斷點
- 導數
- 偏導數
- 方向導數
- 梯度
微積分
泰勒公式
- 麥克勞林公式
SVD矩陣分解
似然函數
後驗機率估計
核函數
資訊熵
激活函數
- sigmoid
- tanh
- relu
- Leaky ReLU

高數、線代、機率論、統計分析

函數

函數的定義

幾種函數

幾種特性

奇偶、周期、單調

數列

極限

函數的連續性

函數的間斷點

導數

偏導數

方向導數

梯度

梯度為等高線上的法向量，朝更高方向發展。

微積分

以曲代直

泰勒公式

以直代曲

一點一世界

麥克勞林公式

SVD矩陣分解

矩陣x向量=向量【對向量作線性變換】，線性變換有拉伸、旋轉。通過表達式： A x = λ x Ax=\lambda x Ax=λx再利用：（ A − λ E ） x = 0 （A-\lambda E）x=0 （A−λE）x=0可以得到特征值 λ \lambda λ【特征值矩陣 ⋀ \bigwedge ⋀】，特征向量P。然後可以将矩陣A表示為 A = P ⋀ P − 1 A=P \bigwedge P^{-1} A=P⋀P−1

如果将特征值矩陣 ⋀ \bigwedge ⋀裡面的特征值 λ \lambda λ由大到小排列，取前k個特征值 λ \lambda λ，這些特征值裡面保留了矩陣A最明顯的特征，這樣這個表達式的應用場景為：1、降維。2、壓縮。

為了解決實際生活中的矩陣壓縮問題【矩陣特征提取問題】，我們常采用SVD矩陣分解，因為SVD矩陣分解的的特征向量P不是方陣，而是MXN的矩陣。

似然函數

與機率函數作對比。

機率是給定參數 θ \theta θ時樣本X=x的可能性，未發生，問樣本X的機率；似然是給定樣本X=x時參數 θ \theta θ的可能性，已發生，問參數是誰。

用實際例子舉例，打NBA時，機率：喬丹投絕殺球的機率，參數 θ \theta θ=喬丹；似然：投了絕殺球後，是誰絕殺的？。

後驗機率估計

後驗機率估計=似然x先驗

核函數

背景：如果我們能了解到關于某個物體的多元度資訊（多角度資訊：比如：年齡、性别、學曆等等），那麼我們可以對這個物體有個全面的了解。

核函數：在矩陣上面是求内積。

問題：多元的内積，往往意味着強大的計算量，解決：科學家發現，用低維内積的n次方，可以得到多元相同的結果。是以，我們利用低維得到的數字結果直接映射到高維。

高斯核函數：

公式： K ( x , y ) = e ∣ ∣ X − Y ∣ ∣ 2 2 σ 2 K(x,y) = e^{\frac{||X-Y||^2}{2\sigma^2}} K(x,y)=e2σ2∣∣X−Y∣∣2
公式的直覺了解：如果x與y相近，則結果為0，相當于一個點，如果x與y遙遠，則結果為1。
該公式的好處：将低維轉到高維，進而提取到深層次的特征。
參數 σ \sigma σ的對公式的影響： σ \sigma σ越小，棱角越鮮明，特征越明顯，切分的越厲害，越容易過拟合。

資訊熵

含義：物體内部的混亂程度（一件事發生的不确定性）

H ( X ) = − ∑ x ∈ X P ( x ) l o g P ( x ) H(X)=-\sum_{x \in X}P(x)logP(x) H(X)=−x∈X∑P(x)logP(x)

對公式的直覺了解：P(x) ∈ \in ∈(0,1)，logP(x) ∈ ( − ∞ , 0 ) \in(-\infty,0) ∈(−∞,0)，logP(x)的圖像：先抖後平緩。

注意：機率越小，熵值越大，越混亂。

是以，熵可以作為衡量名額。

激活函數

sigmoid

優點：将連續值壓縮到0-1區間上。

缺點：1、殺死梯度；2、圖像非原點中心對稱。

為何會殺死梯度：從圖像中可以看出 + ∞ ， − ∞ +\infty，-\infty +∞，−∞處導函數接近水準，從公式推導可以了解到sigmoid的導函數的取值範圍在0-0.25之間，且趨近無窮時，該值趨近0。

缺點：3、輸出值全為整數會導緻梯度全為正或者全為負。4、優化更新會産生階梯式情況（比如兩點之間，最短距離為直線，但是該情況中為樓梯）。

tanh

優點：原點中心對稱；輸出在-1到1之間。

缺點：梯度消失現象依然存在，上同。

relu

優點：解決梯度消失現象，計算速度更快。

缺點：會殺死一部分神經元，梯度為0，神經元此時不會訓練，産生稀疏性，因為x<0時函數值均為0。

Leaky ReLU

優點：解決relu會殺死一部分神經元的情況。

人工智能必備數學基礎函數微積分泰勒公式SVD矩陣分解似然函數後驗機率估計核函數資訊熵激活函數