1 . 动因
在灵长类的大脑视觉皮层系统中,有一类对亮度敏感的神经细胞,它们的接受域都由一个圆环及其内部的圆形部分组成[5] 。这些细胞可以分为两类:① on-center/off-surround 细胞,对黑暗背景上的亮点敏感。② off-center/on-surround 细胞,对亮背景上的暗点敏感。这两类细胞负责视觉信息的早期处理,主要观察空间中亮度的变化。而滤波器在CNN 中也扮演着接受域的角色,受此启发,我们使用 Caltech101 的图片数据集训练了一个由普通卷积层组成的简单 CNN,并观察训练时滤波器的变化过程。在网络训练收敛之后,发现若干滤波器也具有相反的关联关系,尽管这些滤波器都是随机初始化和使用普通梯度下降方法训练的,如图 1 所示。
除此之外,这种相反的关联只出现在输入层后紧跟着的第一个卷积层,与视觉皮层中具有相反接受域的神经细胞所处位置一致。更进一步地,我们在更深的卷积层中探寻类似的关联关系,从而发现某些参与输出同一特征图的滤波器具有平移关联,如图 2 所示。图中的四个滤波器同样采用随机初始化,却表现出了竖直方向平移的关联性。考虑到所有的滤波器都是使用普通反向传播方法训练生成的,这种算法只是将权值朝减小代价函数的方向更新,每个滤波器之间的训练并没有联系。但这些关联性却又总是稳定地存在,所以这种关联性不是偶然的,而很有可能是高效提取视觉特征的必要条件。
基于以上的观察,我们想到在训练网络之前就预先人工设定这些关联,至少能够加速网络模型整体的收敛速度。目前已经实现了反向关联和平移关联。
2 . 相反关联滤波器
在部署相反关联滤波器时,首先需要在一个普通卷积神经层中随机地选取若干对滤波器,以构造关联。为了与实际观察相一致,这些滤波器都来自紧挨着原始输入图像的卷积层,并且分别用于生成不同的输出特征图。在每一对相反关联滤波器中,一个滤波器成为主滤波器,另外一个则是从滤波器,这两个滤波器矩阵的对应位置元素相反,如图3所示。
(a) 在训练前随机初始化的两个示例滤波器(b) 上述两个滤波器训练之后,几乎完全相反图 1 训练普通 CNN 后观察到的滤波器相反关联性图 2 训练普通 CNN 后观察到的滤波器平移相关性在开始迭代训练之前,我们将从滤波器初始化为主滤波器的相反值。除此之外,为了保证在每一次迭代周期后从滤波器都能保持与其主滤波器互反,还需要对其反向传播时的残差添加修正。公式(1) 与公式 (2) 分别描述了主滤波器和从滤波器的更新向量。
其中, 表示主滤波器在第i个周期的更新偏移量,则表示与之对应的从滤波器在第 i 个周期的更新偏移量; 是主滤波器在第 i 个周期的残差;m和 l 则分别表示冲量因子和学习率,两者都是常量。公式中所述的权值更新方法实质上将主 / 从滤波器的权值视为一个整体,综合两者的残差即求得这一对滤波器的更新矢量。除此之外,卷积层中蕴含的相反关联滤波器的数量可以灵活控制,在保证滤波器多样性的前提下,这些关联滤波器对能够稳定提取不同明暗条件下的同种特征。
平移关联滤波器
平移关联滤波器在很多方面都与相反关联滤波器类似。首先,我们仍然将滤波器分为若干组来体现关联性,每一组也依旧包含主 / 从滤波器。但每个主滤波器拥有两个从滤波器,分别是将主滤波器以相反的两个方向平移获得。在此基础上,平移关联滤波器组又分为两个类别,分别表示水平方向的平移以及垂直方向的平移。遵照图 2 中发现关联的位置,平移关联滤波器作为一种处理抽象特征的方法被应用于深层次的卷积神经层中。
如图 4 所示,对于某一个从滤波器而言,它的一半的权值被设置为与其主滤波器的对应部分相同,剩余的另一半权值则由自由训练得到,不受关联影响。这些被关联的权值分别位于主 / 从滤波器的不同位置,由此产生的平移关系能够保证轻微偏移的特征仍然能被检测到。同相反关联滤波器相类似,我们也需要为被关联的权值增加残差修正:对于主滤波器中的每一个权值,如果它也出现在从滤波器中,则将主 / 从滤波器中的残差加和作为最终的残差。这种修正综合考虑了主 / 从双方的需求,使得被关联的滤波器在协同处理的同时,稳定地沿着梯度方向收敛。
将相反滤波器和平移滤波器应用到 NiN [11] 中描述的网络结构上,使用相同的数据扩增方法,我们在 CIFAR-10 数据集上获得了 7.75% 的错误率,优于 NiN 给出的 8.81%。