某些函數在處理機率分布時會經常出現,尤其是深度學習的模型中用到的機率分布。
logistic sigmoid 函數
σ(x)=11+e−x σ ( x ) = 1 1 + e − x
`
從 sigmoid 函數圖像中可以看出,定義域 R R , 而值域範圍 (0,1)(0,1),單調遞增。因而這個函數通常用來産生 Bernoulli 分布中的參數 ϕ ϕ .
當 x x 取非常大的正值或者負值的時候,就會出現 飽和(saturate)現象,函數會變得很平,并且對輸入的微小改變變得不敏感。
softplus 函數
ζ(x)=log(1+ex)ζ(x)=log(1+ex)
之是以叫 softplus, 是因為這個函數 soft(軟化/平滑)了 positive part function
x+=max(0,x) x + = m a x ( 0 , x )
. 但千萬注意 不要把 softplus 和 softmax 名稱搞混。
從 softplus 的函數圖像可以看出,定義域是 R R , 值域是 (0,+∞)(0,+∞), 因而 softplus 函數可以用來産生正态分布的 β β 和 σ σ 參數。
logistic sigmoid 和 softplus 之間的緊密聯系
σ(x)=11+e−1=exex+1(1.1) σ ( x ) = 1 1 + e − 1 = e x e x + 1 ( 1.1 )
1−σ(x)=σ(−x)(1.2) 1 − σ ( x ) = σ ( − x ) ( 1.2 )
ddxσ(x)=σ(x)(1−σ(x))=σ(x)σ(−x)(1.3) d d x σ ( x ) = σ ( x ) ( 1 − σ ( x ) ) = σ ( x ) σ ( − x ) ( 1.3 )
ddxζ(x)=σ(x)(1.4) d d x ζ ( x ) = σ ( x ) ( 1.4 )
logσ(x)=−ζ(−x)(1.5) log σ ( x ) = − ζ ( − x ) ( 1.5 )
∀x∈(0,1),σ−1(x)=logx1−x(1.6) ∀ x ∈ ( 0 , 1 ) , σ − 1 ( x ) = log x 1 − x ( 1.6 )
∀x>0,ζ−1(x)=log(ex−1)(1.7) ∀ x > 0 , ζ − 1 ( x ) = log ( e x − 1 ) ( 1.7 )
ζ(x)=∫x−∞σ(y)dy(1.8) ζ ( x ) = ∫ − ∞ x σ ( y ) d y ( 1.8 )
ζ(x)−ζ(−x)=x(1.9) ζ ( x ) − ζ ( − x ) = x ( 1.9 )