一。線性神經元:實作輸入資訊的完全傳導(僅為概念基礎)
由于激活函數是線性結構,多層神經網絡可以用單層表達,是以神經網絡層數的增加并不會增加網絡的複雜性,是以隻用于概念,實際不會使用
二。線性門檻值神經元
1.輸出和輸入都是二值的
2.每個神經元都有固定的門檻值θ
3.每個神經元都從帶全激活突觸接受資訊
4.抑制突觸對任意激活突觸有絕對否決權
5.每次彙總帶全突觸和,若>θ則不存在抑制,如<θ則為0
y = 1當x>0(特權開關); y=0當x<0
實際也不會用到
三。sigmoid神經元
1.數學表達式:y = 1/(1+e^-x) 偏導:dy/dx = y(1-y)
2.優點:求導簡單,很好地表達了“燃燒率”(從飽和不激活0到完全飽和激活1)
3.缺點:sigmoid函數進入飽和區後梯度消失(接近0或1),會使反向傳播無法調參;并非以0為中心,會使參數皆為正或皆為負,出現zig-zag運動
四。Tanh神經元
1.數學表達式:y = (exp(x)-exp(-x))/(exp(x)+exp(-x)) 偏導:dy/dx = 1-y^2
2.優點:将實數“壓縮”到了-1~1的範圍内,改進了sigmoid過于平緩的問題
五。ReLU神經元
1.數學表達式:y=x,當x>0; y=0,其他 等價于y=max(0,x)
2.優點:非線性(資訊整合能力強),一定範圍内線性(訓練簡單,快速,比Tanh快6倍)
3.缺點:大梯度導緻權值可能更新到不被任何資料激活的位置
4.變種(LeakyReLU):y = max(x,αx),其中α是一個接近于0的極小的正值
六。Maxout神經元
1.數學表達式:y = maxa = max(W1.T+b1,W2T+b2,W3.T+b3,W4.T+b4,W5.T+b5…)
求導:隻有最大值的那一條權值和偏置值進行梯度下降,其他路的權值和偏置值不進行操作
2.優點:能在一定程度上緩解梯度下降時梯度消失的問題,同時又能規避ReLU“死亡”,但增加了參數和計算量
七。Softmax神經元
1.數學表達式:y = e^zi/ ∑e^zj 偏導:i=j時:dyi/dzi = yi-yi^2; i!=j時:dyj/dzi = 1-yiyj
2.特别的,softmax目标函數為loss = -∑yi*log(h(θ)) 其中yi為實際值,h(θ)為預測值。 偏導:dloss/dzi = h(θ)-yi