1 . 動因
在靈長類的大腦視覺皮層系統中,有一類對亮度敏感的神經細胞,它們的接受域都由一個圓環及其内部的圓形部分組成[5] 。這些細胞可以分為兩類:① on-center/off-surround 細胞,對黑暗背景上的亮點敏感。② off-center/on-surround 細胞,對亮背景上的暗點敏感。這兩類細胞負責視覺資訊的早期處理,主要觀察空間中亮度的變化。而濾波器在CNN 中也扮演着接受域的角色,受此啟發,我們使用 Caltech101 的圖檔資料集訓練了一個由普通卷積層組成的簡單 CNN,并觀察訓練時濾波器的變化過程。在網絡訓練收斂之後,發現若幹濾波器也具有相反的關聯關系,盡管這些濾波器都是随機初始化和使用普通梯度下降方法訓練的,如圖 1 所示。
除此之外,這種相反的關聯隻出現在輸入層後緊跟着的第一個卷積層,與視覺皮層中具有相反接受域的神經細胞所處位置一緻。更進一步地,我們在更深的卷積層中探尋類似的關聯關系,進而發現某些參與輸出同一特征圖的濾波器具有平移關聯,如圖 2 所示。圖中的四個濾波器同樣采用随機初始化,卻表現出了豎直方向平移的關聯性。考慮到所有的濾波器都是使用普通反向傳播方法訓練生成的,這種算法隻是将權值朝減小代價函數的方向更新,每個濾波器之間的訓練并沒有聯系。但這些關聯性卻又總是穩定地存在,是以這種關聯性不是偶然的,而很有可能是高效提取視覺特征的必要條件。
基于以上的觀察,我們想到在訓練網絡之前就預先人工設定這些關聯,至少能夠加速網絡模型整體的收斂速度。目前已經實作了反向關聯和平移關聯。
2 . 相反關聯濾波器
在部署相反關聯濾波器時,首先需要在一個普通卷積神經層中随機地選取若幹對濾波器,以構造關聯。為了與實際觀察相一緻,這些濾波器都來自緊挨着原始輸入圖像的卷積層,并且分别用于生成不同的輸出特征圖。在每一對相反關聯濾波器中,一個濾波器成為主濾波器,另外一個則是從濾波器,這兩個濾波器矩陣的對應位置元素相反,如圖3所示。
(a) 在訓練前随機初始化的兩個示例濾波器(b) 上述兩個濾波器訓練之後,幾乎完全相反圖 1 訓練普通 CNN 後觀察到的濾波器相反關聯性圖 2 訓練普通 CNN 後觀察到的濾波器平移相關性在開始疊代訓練之前,我們将從濾波器初始化為主濾波器的相反值。除此之外,為了保證在每一次疊代周期後從濾波器都能保持與其主濾波器互反,還需要對其反向傳播時的殘差添加修正。公式(1) 與公式 (2) 分别描述了主濾波器和從濾波器的更新向量。
其中, 表示主濾波器在第i個周期的更新偏移量,則表示與之對應的從濾波器在第 i 個周期的更新偏移量; 是主濾波器在第 i 個周期的殘差;m和 l 則分别表示沖量因子和學習率,兩者都是常量。公式中所述的權值更新方法實質上将主 / 從濾波器的權值視為一個整體,綜合兩者的殘差即求得這一對濾波器的更新矢量。除此之外,卷積層中蘊含的相反關聯濾波器的數量可以靈活控制,在保證濾波器多樣性的前提下,這些關聯濾波器對能夠穩定提取不同明暗條件下的同種特征。
平移關聯濾波器
平移關聯濾波器在很多方面都與相反關聯濾波器類似。首先,我們仍然将濾波器分為若幹組來展現關聯性,每一組也依舊包含主 / 從濾波器。但每個主濾波器擁有兩個從濾波器,分别是将主濾波器以相反的兩個方向平移獲得。在此基礎上,平移關聯濾波器組又分為兩個類别,分别表示水準方向的平移以及垂直方向的平移。遵照圖 2 中發現關聯的位置,平移關聯濾波器作為一種處理抽象特征的方法被應用于深層次的卷積神經層中。
如圖 4 所示,對于某一個從濾波器而言,它的一半的權值被設定為與其主濾波器的對應部分相同,剩餘的另一半權值則由自由訓練得到,不受關聯影響。這些被關聯的權值分别位于主 / 從濾波器的不同位置,由此産生的平移關系能夠保證輕微偏移的特征仍然能被檢測到。同相反關聯濾波器相類似,我們也需要為被關聯的權值增加殘差修正:對于主濾波器中的每一個權值,如果它也出現在從濾波器中,則将主 / 從濾波器中的殘差加和作為最終的殘差。這種修正綜合考慮了主 / 從雙方的需求,使得被關聯的濾波器在協同處理的同時,穩定地沿着梯度方向收斂。
将相反濾波器和平移濾波器應用到 NiN [11] 中描述的網絡結構上,使用相同的資料擴增方法,我們在 CIFAR-10 資料集上獲得了 7.75% 的錯誤率,優于 NiN 給出的 8.81%。