天天看點

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

帶你讀論文系列之計算機視覺–GoogLeNet V3

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

化作天邊的一朵雲在窗外悄悄看着你。

閑談

廣東的天氣異常熱,重慶今日溫度28度左右,而廣東37度左右。九月的天,讓我又進入的夏天😭。近期會頻繁更新,原因是我假期太懶了,都是之前累積的論文,現在開始整理了。同時,我把相關文檔整理一下,放在我的GitHub上,歡迎加星, 歡迎提問,歡迎指正錯誤, 同時也期待能夠共同參與。

前言

重新思考計算機視覺中的Inception結構。

回顧

  1. GoogLeNet-V1主要采用了多尺度卷積核、1x1卷積操作、輔助損失函數;
  2. GoogLeNet-V2在V1的基礎上加了BN層,使用小卷積核堆疊替換大卷積核;

GoogLeNet –V1 采用多尺度卷積核,1✖️1卷積操作,輔助損失函數,實作更深的22層卷積神經網絡,奪得ILSVRC-2014 分類和檢測冠軍,定位亞軍。

GoogLeNet-V2 基礎上加入BN層,并将5*5卷積全面替換為2個3✖️3卷積堆疊的形式,進一步提高模型性能。

VGG網絡模型大,參數多,計算量大,不适用于真實場景。

GoogLeNet比VGG 計算量小;GoogLeNet可用于有限資源下的場景。

論文:

Rethinking the Inception Architecture for Computer Vision

研究意義:

  1. 總結模型設計準則,為卷積神經網絡模型設計提供參考;
  2. 提出3個技巧,結合Inception,奠定Inception系列最常用模型——Inception-V3;

論文詳情

本文優點:

1.提出低分辨率分類的方法;

2.提出卷積分解提高效率

3.BN-auxiliary

4.LSR

GoogLeNet的Inception 架構也被設計為即使在記憶體和計算預算的嚴格限制下也能表現良好。例如,GoogLeNet僅使用了500 萬個參數,相對于其前身AlexNet使用了6000萬個參數,這意味着減少了12 倍。此外,VGGNet使用的參數比AlexNet多3倍。

摘要:

  1. 背景:自2014年以來,深度卷積神經網絡成為主流,在多個任務中獲得優異成績;
  2. 問題:目前精度高的卷積神經網絡,參數多,計算量大,存在落地困難問題;
  3. 解決:本文提出分解卷積及正則化政策,提升深度卷積神經網絡速度和精度;
  4. 成果:單模型+single crop,top-5,5.6%; 模型融合+multi-crop,top-5,3.5%。
帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

大卷集合分解成小卷積核堆疊。取代5×5卷積的小型網絡。

解耦:

  • 加快訓練;
  • 參數少了,可以用更多的卷積核;

分解成更小的卷積:

  1. 小卷積核,計算量小;
  2. 大卷積核,感受野大,可捕獲更多資訊;
  3. 小卷積核,會降低表達能力;

具有較大空間濾波器(例如5×5或7×7)的卷積在計算上往往不成比例地昂貴。例如,在一個有過濾器的網格上用5×5個過濾器進行卷積,比用同樣數量的過濾器進行3×3卷積的計算成本高25/9=2.78 倍。當然,5×5的濾波器可以捕捉到前幾層中更遠的單元的激活信号之間的依賴關系,是以減少濾波器的幾何尺寸是以很大的擴充性為代價的。

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3
帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

如果我們放大5✖️5卷積的計算圖,我們會看到每個輸出看起來像一個小的全連接配接網絡,在其輸入上滑動5✖️5塊(如上figure 1)。由于我們正在建構視覺網絡,是以利用平移不變性似乎很自然再次将全連接配接元件替換為兩層卷積架構:第一層是3×3卷積,第二層是第一層3✖️3 輸出網格頂部的全連接配接層(如上figure 1)。在輸入激活網格上滑動這個小網絡歸結為用兩層3✖️3卷積替換5✖️5 卷積(如上figure 4 和 figure 5)。

  1. 3✖️3是否還能分解?可用2✖️2?其實用3✖️1和1✖️3 分解更好;
  2. asymmetric 和2✖️2帶來的參數減少分别為33%和11%。

通過使用不對稱卷積,例如n✖️1,我們可以做得比2×2更好。例如,使用3✖️1卷積,然後再使用1✖️3卷積,就相當于用3✖️3 卷積的相同感受場滑動一個兩層網絡(見圖3)。如果輸入和輸出濾波器的數量相等,在輸出濾波器數量相同的情況下,兩層的解決方案仍然便宜33%。相比之下,将3✖️3卷積分解為2✖️2 卷積隻節省了11%的計算量。

  1. 一開始不要分解,效果不好!
  2. 特征圖在12到20之間是比較好的!3.最好的參數是1✖️7,7✖️1;
帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

兩個Inception模型之間的實驗,其中一個使用分解為線性+ReLU layers,另一個使用兩個ReLU層。經過386萬次操作,前者穩定在76.2%,而後者在驗證集上達到77.2%t op-1準确率。

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

取代3✖️3演算的小型網絡。該網絡的底層由3個輸出單元的3✖️1卷積組成。

輔助分類器的效用

  1. 輔助分類層在早期起不到加速收斂作用;
  2. 收斂前,有無輔助分類,訓練速度一樣;
  3. 快收斂,有輔助分類的超過沒有輔助分類的。
帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3
帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

該架構用于最粗糙的(8✖️8)網格以促進高維表示。我們僅在最粗糙的網格上使用此解決方案,因為這是産生高維稀疏表示是最關鍵的地方,因為與空間聚合相比,局部處理(1✖️1卷積)的比率增加了。

V1中提到的輔助分類層有助于低層特征提取的假設是不正确的。

本文認為輔助分類起到正則的作用。如果輔助分支是批量歸一化的或具有dropout層,則網絡的主分類器性能更好。這也為批量歸一化充當正則化器的猜想提供了微弱的支援證據。

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

左圖表示傳統的池化方法,會損失特征圖的資訊,右圖表示先将特征圖增大再進行池化的過程,存在問題是計算亮過大;

解決辦法:用卷積得到一半的特征圖,池化得到一半的特征圖,再進行拼接。

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

注意:該Inception-module用于35x35下降到17x17和17x17下降到8x8;

Inception子產品,在擴充濾波器組的同時減小網格大小。它既便宜又避免瓶頸。右圖表示相同的解決方案,但從網格大小而不是操作的角度來看。

實驗

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

感受野大小不同但計算成本不變時的識别性能對比。

  1. 299×299感受野,第一層後的stride2和maximum pooling;
  2. 第一層後具有stride1和最大池化的151×151感受野;
  3. 79×79的感受野,第一層後有跨度1和無pooling。
帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

從v2開始,基于上個模型添加新trick ,最後一個模型稱為inception-v3。

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

single-model、multi-crop實驗結果比較對各種影響因素的累積影響。将我們的數字與ILSVRC2012分類基準上釋出的最佳單模型推理結果進行比較。

帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

比較multi-model、multi-crop報告結果的內建評估結果。我們的數字與ILSVRC 2012分類基準上釋出的最佳內建推理結果進行了比較。*所有結果,但報告的前5個內建結果都在驗證集上。內建在驗證集上産生了3.46%的top-5錯誤。

論文總結

Inception-V3的主要改進點:

  1. 采用RMSProp優化方法;
  2. 采用标簽平滑正則化方法;
  3. 采用非對稱卷積提取17x17特征圖;
  4. 采用BN的輔助分類層;

關鍵點:

  1. 非對稱卷積分解:減少參數計算,為卷積結構設計提供新思路;
  2. 高效特征圖下降政策:利用stride=2的卷積與池化,避免資訊表征瓶頸;
  3. 标簽平滑:避免網絡過度自信,減輕過拟合;

啟發點:

  1. CNN的分類是CNN視覺任務的基礎:在分類上表現好的CNN,通常在其他視覺任務中表現也好;
  2. GoogLe的很多論文的最優解均是通過大量實驗得出,一般玩家難以複現;
  3. 非對稱卷積分解在分辨率為12-20的特征圖上效果好,且用1x7和7x1進行特征提取;
  4. 在網絡訓練初期,輔助分類層的加入并沒有加快網絡收斂,在訓練後期,才加快網絡的收斂;
  5. 移除兩個輔助分類層的第一個,并不影響網絡性能;
  6. 标簽平滑參數設定,讓非标簽的機率保持在10-4左右。
帶你讀論文系列之計算機視覺--GoogLeNet V3帶你讀論文系列之計算機視覺–GoogLeNet V3

繼續閱讀