一。线性神经元:实现输入信息的完全传导(仅为概念基础)
由于激活函数是线性结构,多层神经网络可以用单层表达,因此神经网络层数的增加并不会增加网络的复杂性,因此只用于概念,实际不会使用
二。线性阈值神经元
1.输出和输入都是二值的
2.每个神经元都有固定的阈值θ
3.每个神经元都从带全激活突触接受信息
4.抑制突触对任意激活突触有绝对否决权
5.每次汇总带全突触和,若>θ则不存在抑制,如<θ则为0
y = 1当x>0(特权开关); y=0当x<0
实际也不会用到
三。sigmoid神经元
1.数学表达式:y = 1/(1+e^-x) 偏导:dy/dx = y(1-y)
2.优点:求导简单,很好地表达了“燃烧率”(从饱和不激活0到完全饱和激活1)
3.缺点:sigmoid函数进入饱和区后梯度消失(接近0或1),会使反向传播无法调参;并非以0为中心,会使参数皆为正或皆为负,出现zig-zag运动
四。Tanh神经元
1.数学表达式:y = (exp(x)-exp(-x))/(exp(x)+exp(-x)) 偏导:dy/dx = 1-y^2
2.优点:将实数“压缩”到了-1~1的范围内,改进了sigmoid过于平缓的问题
五。ReLU神经元
1.数学表达式:y=x,当x>0; y=0,其他 等价于y=max(0,x)
2.优点:非线性(信息整合能力强),一定范围内线性(训练简单,快速,比Tanh快6倍)
3.缺点:大梯度导致权值可能更新到不被任何数据激活的位置
4.变种(LeakyReLU):y = max(x,αx),其中α是一个接近于0的极小的正值
六。Maxout神经元
1.数学表达式:y = maxa = max(W1.T+b1,W2T+b2,W3.T+b3,W4.T+b4,W5.T+b5…)
求导:只有最大值的那一条权值和偏置值进行梯度下降,其他路的权值和偏置值不进行操作
2.优点:能在一定程度上缓解梯度下降时梯度消失的问题,同时又能规避ReLU“死亡”,但增加了参数和计算量
七。Softmax神经元
1.数学表达式:y = e^zi/ ∑e^zj 偏导:i=j时:dyi/dzi = yi-yi^2; i!=j时:dyj/dzi = 1-yiyj
2.特别的,softmax目标函数为loss = -∑yi*log(h(θ)) 其中yi为实际值,h(θ)为预测值。 偏导:dloss/dzi = h(θ)-yi