天天看點

人工智能必備數學基礎函數微積分泰勒公式SVD矩陣分解似然函數後驗機率估計核函數資訊熵激活函數

人工智能必備數學基礎

  • 函數
    • 函數的定義
    • 幾種函數
    • 幾種特性
    • 數列
    • 極限
    • 函數的連續性
    • 函數的間斷點
    • 導數
    • 偏導數
    • 方向導數
    • 梯度
  • 微積分
  • 泰勒公式
    • 麥克勞林公式
  • SVD矩陣分解
  • 似然函數
  • 後驗機率估計
  • 核函數
  • 資訊熵
  • 激活函數
    • sigmoid
    • tanh
    • relu
    • Leaky ReLU

高數、線代、機率論、統計分析

函數

函數的定義

幾種函數

幾種特性

奇偶、周期、單調

數列

極限

函數的連續性

函數的間斷點

導數

偏導數

方向導數

梯度

梯度為等高線上的法向量,朝更高方向發展。

微積分

以曲代直

泰勒公式

以直代曲

一點一世界

麥克勞林公式

SVD矩陣分解

矩陣x向量=向量【對向量作線性變換】,線性變換有拉伸、旋轉。通過表達式: A x = λ x Ax=\lambda x Ax=λx再利用: ( A − λ E ) x = 0 (A-\lambda E)x=0 (A−λE)x=0可以得到特征值 λ \lambda λ【特征值矩陣 ⋀ \bigwedge ⋀】,特征向量P。然後可以将矩陣A表示為 A = P ⋀ P − 1 A=P \bigwedge P^{-1} A=P⋀P−1

如果将特征值矩陣 ⋀ \bigwedge ⋀裡面的特征值 λ \lambda λ由大到小排列,取前k個特征值 λ \lambda λ,這些特征值裡面保留了矩陣A最明顯的特征,這樣這個表達式的應用場景為:1、降維。2、壓縮。

為了解決實際生活中的矩陣壓縮問題【矩陣特征提取問題】,我們常采用SVD矩陣分解,因為SVD矩陣分解的的特征向量P不是方陣,而是MXN的矩陣。

似然函數

與機率函數作對比。

機率是給定參數 θ \theta θ時樣本X=x的可能性,未發生,問樣本X的機率;似然是給定樣本X=x時參數 θ \theta θ的可能性,已發生,問參數是誰。

用實際例子舉例,打NBA時,機率:喬丹投絕殺球的機率,參數 θ \theta θ=喬丹;似然:投了絕殺球後,是誰絕殺的?。

後驗機率估計

後驗機率估計=似然x先驗

核函數

背景:如果我們能了解到關于某個物體的多元度資訊(多角度資訊:比如:年齡、性别、學曆等等),那麼我們可以對這個物體有個全面的了解。

核函數:在矩陣上面是求内積。

問題:多元的内積,往往意味着強大的計算量,解決:科學家發現,用低維内積的n次方,可以得到多元相同的結果。是以,我們利用低維得到的數字結果直接映射到高維。

高斯核函數:

  • 公式: K ( x , y ) = e ∣ ∣ X − Y ∣ ∣ 2 2 σ 2 K(x,y) = e^{\frac{||X-Y||^2}{2\sigma^2}} K(x,y)=e2σ2∣∣X−Y∣∣2​
  • 公式的直覺了解:如果x與y相近,則結果為0,相當于一個點,如果x與y遙遠,則結果為1。
  • 該公式的好處:将低維轉到高維,進而提取到深層次的特征。
  • 參數 σ \sigma σ的對公式的影響: σ \sigma σ越小,棱角越鮮明,特征越明顯,切分的越厲害,越容易過拟合。

資訊熵

含義:物體内部的混亂程度(一件事發生的不确定性)

H ( X ) = − ∑ x ∈ X P ( x ) l o g P ( x ) H(X)=-\sum_{x \in X}P(x)logP(x) H(X)=−x∈X∑​P(x)logP(x)

對公式的直覺了解:P(x) ∈ \in ∈(0,1),logP(x) ∈ ( − ∞ , 0 ) \in(-\infty,0) ∈(−∞,0),logP(x)的圖像:先抖後平緩。

注意:機率越小,熵值越大,越混亂。

是以,熵可以作為衡量名額。

激活函數

sigmoid

優點:将連續值壓縮到0-1區間上。

缺點:1、殺死梯度;2、圖像非原點中心對稱。

為何會殺死梯度:從圖像中可以看出 + ∞ , − ∞ +\infty,-\infty +∞,−∞處導函數接近水準,從公式推導可以了解到sigmoid的導函數的取值範圍在0-0.25之間,且趨近無窮時,該值趨近0。

缺點:3、輸出值全為整數會導緻梯度全為正或者全為負。4、優化更新會産生階梯式情況(比如兩點之間,最短距離為直線,但是該情況中為樓梯)。

tanh

優點:原點中心對稱;輸出在-1到1之間。

缺點:梯度消失現象依然存在,上同。

relu

優點:解決梯度消失現象,計算速度更快。

缺點:會殺死一部分神經元,梯度為0,神經元此時不會訓練,産生稀疏性,因為x<0時函數值均為0。

Leaky ReLU

優點:解決relu會殺死一部分神經元的情況。