天天看點

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

Residual Local Feature Network for Efficient Super-Resolution

(用于高效超分辨率的殘差特征局部網絡)

NTIRE 2022

*圖像修複領域最具影響力的國際頂級賽事——New Trends in Image Restoration and Enhancement(NTIRE)

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

作者:Fangyuan Kong* Mingxi Li∗ Songwei Liu∗ Ding Liu Jingwen He Yang Bai Fangmin Chen Lean Fu

機關:ByteDance Inc

代碼: https://github.com/fyan111/RLFN

論文位址:https://arxiv.org/pdf/2205.07514

一、問題動機

基于深度學習的方法在單幅圖像超分辨率(SISR)中取得了很好的表現。然而,高效超分辨率的最新進展側重于減少參數和 FLOP 的數量,它們通過複雜的層連接配接政策提高特征使用率來聚合更強大的特征。這些結構受限于當今的移動端硬體架構,這使得它們難以部署到資源受限的裝置上。

二、主要思路和亮點

作者重新審視了目前最先進的高效 SR 模型 RFDN ,并嘗試在重建圖像品質和推理時間之間實作更好的權衡。首先,作者重新考慮了 RFDN 提出的殘差特征蒸餾塊的幾個元件的效率。作者觀察到,盡管特征蒸餾顯着減少了參數數量并有助于整體性能,但它對硬體不夠友好,并限制了 RFDN 的推理速度。為了提高其效率,作者提出了一種新穎的殘差局部特征網絡(RLFN),可以減少網絡碎片并保持模型容量。為了進一步提高其性能,作者建議使用對比損失。作者注意到,其特征提取器的中間特征的選擇對性能有很大的影響。作者對中間特征的性質進行了綜合研究,并得出結論,淺層特征保留了更準确的細節和紋理,這對于面向 PSNR 的模型至關重要。基于此,作者建構了一個改進的特征提取器,可以有效地提取邊緣和細節。為了加速模型收斂并提高最終的 SR 恢複精度,作者提出了一種新穎的多階段熱啟動訓練政策。具體來說,在每個階段,SR 模型都可以享受到所有先前階段的模型的預訓練權重的好處。結合改進的對比損失和提出的熱啟動訓練政策,RLFN 實作了最先進的性能并保持良好的推理速度。此外,作者還憑此獲得了 NTIRE 2022 高效超分辨率挑戰賽的運作時間賽道第一名。

作者的貢獻可以總結如下:

  1. 作者重新思考了RFDN的效率,并研究了它的速度瓶頸。作者提出了一種新的殘差局部特征網絡,它成功地提高了模型的緊湊性,并在不犧牲SR恢複精度的情況下加速了推理。
  2. 作者分析了由對比損失的特征提取器提取的中間特征。作者觀察到,淺層特征對面向神經模型至關重要,這啟發作者提出一種新的特征提取器來提取更多的邊緣和紋理資訊。
  3. 作者提出了一種多階段的暖啟動訓練政策。它可以利用前階段訓練的權重來提高SR性能。

三、細節

1、模型結構

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

作者提出的殘差局部特征網絡(RLFN)的整體網絡架構如上圖所示。作者的RLFN主要由三個部分組成:第一個特征提取卷積、多個堆疊的剩餘局部特征塊(RLFBs)和重構子產品。作者将ILR和ISR表示為RLFN的輸入和輸出。在第一階段,作者使用一個單一3×3卷積層來提取粗特征:

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

其中,hext(·)為特征提取的卷積運算,f0為提取的特征映射。然後,作者以級聯的方式使用多個rlfb進行深度特征提取。這個過程可以用:

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

其中,hnRLFB(·)表示第n個RLFB函數,Fn為第n個輸出特征映射。

此外,作者使用一個3×3卷積層來平滑逐漸細化的深度特征圖。接下來,應用重構子產品生成最終的輸出ISR。

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

其中,frec(·)表示由一個3×3卷積層和一個亞像素操作(非參數)組成的重構子產品。此外,fsmooth表示3×3卷積運算。

對比于原始的RFDN(baseline)相比作者主要将蒸餾分支删去換為殘差連接配接,并經過備援分析将每個group裡的conv數量删減為一個,保證了在移動裝置上的運作效率。

2、重新審視對比損失

對比學習在自我監督學習中表現出令人印象深刻的表現。 背後的基本思想是在潛在空間中将正數推向錨點,并将負數推離錨點。 最近的工作提出了一種新穎的對比損失,并通過提高重建圖像的品質來證明其有效性。 對比損失定義為:

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

其中,φj表示第j層的中間特征。d(x,y)是x和y之間的l1距離,λj是每一層的平衡權重。AECR-Net和CSD從預訓練後的VGG-19的第1、第3、第5、第9和第13層中提取特征。然而,作者通過實驗發現,當使用對比損失時,PSNR值降低了。

接下來,作者試圖調查它的原因來解釋這種差異。在等式中定義的對比損失(8)主要依賴于兩幅圖像Y1和Y2之間的特征圖的差異。是以,作者試圖可視化由預先訓練的模型φ提取的特征圖的差異圖:

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

式中,i、j為y1、y2的空間坐标,k為y1、y2的通道指數。作者使用DIV2K資料集中的100個驗證性的高分辨率圖像作為Y1,相應的圖像将模糊核退化為Y2。下圖給出了可視化的示例。一個令人驚訝的觀察是,從更深的層次提取的特征差異圖更語義,但缺乏準确的細節。例如,邊緣和紋理大部分在第一層保留,而第13層的特征隻保留了整體的空間結構,而細節通常缺失。綜上所述,深層特征可以提高真實感覺品質的性能,因為它提供了更多的語義指導。來自淺層的特征保留了更準确的細節和紋理,這對于面向PSNR的模型是至關重要的。建議作者利用淺層特征來改進訓練模型的PSNR。

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

為了進一步改進對比損失,作者重新讨論了特征提取器的架構。原始的對比損失試圖在ReLU激活函數後最小化兩個激活特征之間的距離。然而,ReLU函數是無界的,激活的特征映射是稀疏的,導緻資訊丢失,提供較弱的監督。是以,作者将特征提取器的ReLU激活函數替換為Tanh函數。

此外,由于VGG-19是用ReLU激活函數進行訓練的,是以如果不經過任何訓練就将ReLU激活替換為Tanh函數,那麼性能就不能保證。最近的一些研究表明,一個具有良好結構的随機初始化的網絡足以捕獲感覺細節。受這些工作的啟發,作者建構了一個随機初始化的兩層特征提取器,它具有Convk3s1-Tanh-Convk3s1的體系結構。預先訓練好的VGG-19和作者提出的特征提取器的差異圖如下圖所示。作者可以觀察到,與預先訓練過的VGG-19的差異圖相比,作者提出的特征提取器的差異圖具有更強的響應能力,可以捕獲更多的細節和紋理。這也提供了證據,表明一個随機初始化的特征提取器已經可以捕獲一些結構資訊,而預訓練是不必要的。

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

3、暖啟動政策(warm start)

對于像SR任務中的3或4這樣的大規模因素,之前的一些工作使用2x模型作為一個預先訓練的網絡,而不是從頭開始訓練它們。2x模型提供了良好的初始化權值,加速了收斂速度,提高了最終的性能。但是,由于預訓練模型和目标模型的scale不同,一次針對特定scale的訓練無法适應多種尺度。

為了解決這一問題,作者提出了一種新的多階段暖啟動訓練政策,它可以通過經驗來提高SISR模型性能。在第一階段,作者從零開始訓練RLFN。然後在下一階段,作者不是從頭開始訓練,而不是加載前一階段的RLFN的權重,這被稱為暖啟動政策。訓練設定,如批量大小和學習率,在第一階段遵循完全相同的訓練方案。在接下來的本文中,作者使用RFLN_ws_i來表示使用暖啟動i次(在i+1階段之後)的訓練模型。例如,RFLN_ws_1表示一個雙階段的訓練過程。在第一階段,作者從零開始訓練RLFN。然後在第二階段,RLFN加載預先訓練好的權值,并按照與第一階段相同的訓練方案進行訓練。

四、實驗

1、設定

資料集和名額作者使用 DIV2K 資料集中的 800 張訓練圖像進行訓練。作者在四個基準資料集上測試了作者模型的性能:Set5、Set14、BSD100 [35] 和 Urban100。作者在 YCbCr 空間的 Y 通道上評估 PSNR 和 SSIM。訓練細節作者的模型是在 RGB 通道上訓練的,作者通過随機翻轉和 90 度旋轉來增加訓練資料。 LR 圖像是通過在 MATLAB 中使用雙三次插值對 HR 圖像進行下采樣而生成的。作者從ground truth中随機裁剪大小為 256×256 的 HR 更新檔,小批量大小設定為 64。訓練過程分為三個階段。在第一階段,作者從頭開始訓練模型。然後作者兩次采用熱啟動政策。在每個階段,作者通過設定 β1 = 0.9、β2 = 0.999 和 = 10−8 來采用 Adam 優化器,并在 RFDN 的訓練過程之後最小化 L1 損失。初始學習率為 5e-4,每 2 × 105 次疊代減半。此外,作者還在第三階段使用了廣泛使用的對比損失。作者實作了兩個模型,RLFN-S 和 RLFN。 RLFB 的數量在兩個模型中都設定為 6。作者将 RLFN 的通道數設定為 52。為了獲得更好的運作時間,RLFN-S 的通道數較小,為 48。

2、實驗結果

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

3、消融實驗

為了評估作者的模型架構優化的有效性,作者設計了RFDB的兩個變體。如圖7所示,作者删除RFDB中的特征蒸餾層得到RFDBR48,然後RFDBR52将通道數量增加到52,ESA的中間通道增加到16,以降低性能下降,RLFB删除基于RFDBR52的SRB内部的密集添加操作。RFDB、RFDBR48、RFDBR52和RLFB作為SR網絡的主體部分堆疊,如下表所示,RLFB與RFDB保持了相同的恢複性能水準,但具有明顯的速度優勢。

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

為了研究對比損失的有效性,作者去掉了第二個熱啟動階段的對比損失,隻使用L1損失。如下表所示,在四個基準資料集上,對比損失持續地提高了PSNR和SSIM的性能。

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

熱啟動政策的有效性為了證明作者提出的熱啟動政策的有效性,作者比較了 RLFN-S ws 1 作為基線和不同學習率政策的兩種變體,RLFN-S e2000 和 RLFNS clr。 在此比較中不使用對比損失,而其他訓練設定保持不變。 他們将總時期設定為 2000 以與 RLFN-S ws 1 進行比較。RLFNS e2000 每 4 × 105 次疊代将學習率減半。 RLFN-S clr 應用循環學習率政策,與 RLFN-S ws 1 相同。但是,它加載優化器的狀态,而 RLFN-S ws 1 應用預設初始化。 如下表所示,與作者提出的熱啟動政策相比,RLFN-S e2000 和 RLFN-S clr 降低了 PSNR 和 SSIM。 說明熱啟動政策有助于在優化過程中跳出局部最小值,提高整體性能。

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

作者也研究了作者提出的對比損失和熱啟動政策的推廣。作者分别對EDSR采用對比損失和熱啟動政策。定量比較如下表所示,這表明作者提出的方法是通用的,可以應用于其他現有的SISR模型。

[NTIRE 2022]Residual Local Feature Network for Efficient Super-ResolutionResidual Local Feature Network for Efficient Super-Resolution(用于高效超分辨率的殘差特征局部網絡)

五、總結

在本文中,作者提出了一個有效的SISR的剩餘局部特征網絡。通過減少層數和簡化層之間的連接配接,作者的網絡更輕、更快。然後,作者重新審視對比損失的使用,改變特征提取器的結構,并重新選擇對比損失所使用的中間特征。作者還提出了一種熱啟動政策,這有利于輕量級SR模型的訓練。大量的實驗表明,作者的總體方案,包括模型結構和訓練方法,達到了品質和推理速度的平衡。

六、啟發

1、通讀作者的論文後,我們知道了淺層特征對面向神經模型至關重要,作者也提出一種新的特征提取器來提取更多的邊緣和紋理資訊,可以用它來提升模型的名額性能(?)以及視覺效果

2、作者提出的多階段的暖啟動訓練政策。它可以利用前階段訓練的權重來提高SR性能。

繼續閱讀