學界 | 牛津大學提出神經網絡新訓練法：用低秩結構增強網絡壓縮和對抗穩健性

選自arXiv

作者：Amartya Sanyal、Varun Kanade、Philip H.S. Torr

機器之心編譯

參與：劉天賜、劉曉坤

和目前普遍的稀疏性誘導、結構化限制相似，神經網絡的低秩結構也具有壓縮的性質，并在對抗攻擊中具備穩健性。在本文中，來自牛津大學計算科學部和阿蘭圖靈機構的研究者開發了一種新方法，通過在訓練過程中引入修正，增強神經網絡表征的低秩屬性。

引言

深度（卷積）神經網絡已經取得了許多重大成果，「表征學習」就是其中非常迷人的一個方面：深度網絡能夠從原始資料中生成可以用于多個任務的表征。有趣的是，從奠基性論文 Krizhevsky et al. (2012) 開始，人們發現，即使是在完全的監督學習體系下訓練出的神經網絡也具有這一性質。在其他和分類、檢索、聚類（通常和原始的分類問題無關）等相關領域，人們利用這些學得的表征（即遷移學習）已經取得了巨大的成功（Kiros et al., 2014; Lin and Parikh, 2015）。

從本質上講，可以認為倒數第二層（或接近輸出層的某一層）神經元的激活就是原始資料的一個習得表征（learned representation）（也就是希望從這張圖像中希望得到的内容）。而最後一層神經元通常隻是一個多類别 logistic 回歸模型。在本文中，作者主要研究了 ResNet-18 和 ResNet-50（He et al., 2016），同時也部分包括 VGG 網絡（Simonyan and Zisserman, 2014）上的研究結果。盡管近年來許多人廣泛研究了神經網絡架構的方方面面，但幾乎沒有關于如何了解這些表征本質的相關工作。

本文研究了這些習得表征，主要探索了其（有效）次元問題。一個 ResNet-18/50 網絡基本都是由 4 個 ResNet 塊（block）組成（其中每個塊又包含了多個卷積層和跳過連接配接）。我們探索的是第 3、第 4 個 ResNet 塊末端激活的次元。在 ResNet-18 中，第 3 個 ResNet 塊後的激活次元為 16384，第 4 個 ResNet 塊後的激活次元則為 512。在 ResNet-50 中，作者隻研究了最後一個 ResNet 塊後的激活次元：為 2048。在實驗中，每一個資料點 x 都映射為向量 a ∈ R^m，用 d 表示上述層（layer）中的激活數量；而向量 a 則是 x 的一個習得表征。實證研究（Oyallon, 2017）表明：給定類别，這些習得表征（近似）處于一個低秩（仿射）空間中。（Oyallon 2017 年的研究中，使用了另一個不同的卷積神經網絡來處理圖像分類問題）。

作者對訓練過程進行了修正，以保證激活可以（近似）處于一個低秩空間中；準确的說，他們在損失函數中加入了一項，以促使特定層的激活能夠處于低秩仿射空間。使用修正後訓練過程得到的結果準确率基本沒有下降（在一些場景下甚至有少量提升），同時增強了習得特征的低秩屬性。修正在模型中「加入」了一個虛拟的（virtual）低秩層，可以保證習得特征基本處于低秩空間中。在優化修正後的目标函數時，使用的是交替最小化方法，該想法類似于疊代硬門檻值（Blumensath and Davies, 2009）或奇異值投影（Jain et al., 2010）中所使用的方法。

考慮到樸素奇異值門檻值方法會使得訓練過程無法滿足任何實際場景下的需要，作者采用了基于 Nystr¨om 方法（Williams and Seeger, 2001; Halko et al., 2011）的列采樣方法，訓練速度得到了顯著的提升，但也使得沒有得到最優的低秩映射。可以認為，修正後的訓練過程能夠防止神經網絡出現過度參數化（over-parametrization），不過使用了和目前普遍的稀疏性誘導方法（如 Anwar et al. (2017); Wen et al. (2016)）以及結構化限制方法（Moczulski et al. (2015); Liu et al. (2015)）都不同的手段。

最後，作者也探索了學習低秩表征的優點。其中一個明顯的優點是在其它的應用場景中，低秩表征能夠壓縮嵌入：事實上，由于這些習得表征（近似）處于一個低維（仿射）空間中，它們本身就滿足一種壓縮架構。另外，我們研究了這種方式訓練出的神經網絡在對抗性攻擊（Szegedy et al., 2013）下的穩健性。結果顯示，相比于标準架構，這些神經網絡基本上對由 GSM 方法（Gradient Sign Method）及其變體（Kurakin et al., 2016）生成的對抗性攻擊有更好的穩健性。實證評估進一步表明，在使用習得表征（或其低秩投影）來訓練 SVM 分類器時，利用修正方法訓練得到的神經網絡在使用習得表征低秩投影時，可以給出更準确的預測結果。

3 LR-Layered 網絡

4.1 模型性能沒有下降

表 1：不同的 ResNet 模型在 CIFAR-10 上的測試準确率

表 2：ResNet 模型在 CIFAR-100 上的測試準确率：包含原始結果和遷移到 Fine Label 後的結果

4.2 方差率捕獲

圖 1：倒數第二層上的方差率（Variance Ratio）

圖 2：第 4 個 ResNet 塊前的層上的方差率

4.4 低維嵌入的有效性

表 3：低維嵌入準确率：利用 CIFAR-100 的超類訓練 ResNet-50，在最後一個全連接配接層前的激活上生成低維嵌入

表 4：低維嵌入準确率：利用 CIFAR-10 訓練的 ResNet-18，利用最後一個 ResNet 塊的嵌入生成低維嵌入

5 對抗攻擊

圖 5：上圖展示了對抗性的誤分類和擾動量級間的關系。（擾動量級使用歸一化 L2 差異度量。其中 1-LR 和 2-LR 分别表示 ResNet18-1-LR 和 ResNet18-2-LR。LR-V 和 N-LR-V 分别對應低秩 VGG19 模型和标準 VGG19 模型）

圖 6：CIFAR-100 超類标簽的 PCA 圖。左圖展示了 ResNet-50 上訓練的 LR 模型的嵌入結果，右圖展示了标準的 ResNet-50 模型結果，兩個模型使用了類似的訓練方法。圖中不同顔色表示不同類别。

論文：Low Rank Structure of Learned Representations（習得表征的低秩結構）

論文位址：https://arxiv.org/pdf/1804.07090.pdf

神經網絡——尤其是深度卷積神經網絡——有一個很重要的特征：它們能夠從資料中學習出非常有用的表征，而最後一層神經元則隻是在這些習得特征上訓練的線性模型。雖然神經網絡在其它諸如分類、檢索、聚類等目标中得到了廣泛使用（即遷移學習），但并沒有足夠的關于這些表征結構，或是否可以在訓練過程中引入某些結構的相關研究結果。

本文選擇了一些在圖像分類問題中表現很好的神經網絡，并研究了其習得表征的次元。我們選取了 ResNet-18、ResNet-50 以及 VGG-19，并使用 CIFAR10/CIFAR100 資料集來訓練模型；我們發現，這些模型的習得表征表現出了明顯的低秩結構。在訓練過程中，我們引入了一定的修正，以促進神經網絡不同階段激活的低秩表征。實證結果表明，低秩結構具有壓縮的性質，在對抗樣本問題中，也具有更高的穩健性。