天天看點

論文學習筆記(11):Cross-resolution learning for Face RecognitionAbstract1. Introduction2. Motivation3. Related works4. Datasets5. Approach6. Experimental results7. Conclusion

論文學習筆記(11):Cross-resolution learning for Face RecognitionAbstract1. Introduction2. Motivation3. Related works4. Datasets5. Approach6. Experimental results7. Conclusion

目錄

  • Abstract
  • 1. Introduction
  • 2. Motivation
  • 3. Related works
  • 4. Datasets
    • 4.1 VGGFace2
    • 4.2 IJB-B
    • 4.3 IJB-C
    • 4.4 TinyFace
    • 4.5 QMUL-SurvFace
  • 5. Approach
  • 6. Experimental results
  • 7. Conclusion

Abstract

目前的人臉識别問題在跨分辨率的人臉比對識别(即

LR-HR

)上仍知之甚少,是以本文有以下四點貢獻:

  1. 提出了一個訓練程式去fine-tune一個state-of-art模型,使其可以提取分辨率魯棒的深層特征(

    resolution-robust

  2. 使用高分辨率資料集(IJB-B及IJB-C)及監控相機資料集(QMUL-SurvFace,TinyFace,SCface)對模型進行測試評估
  3. 提出的訓練算法同樣改善了state-of-art算法在

    LR-LR

    比對上的性能
  4. 與超分技術結合可以更有效的提升提出算法的性能

1. Introduction

對于LR輸入圖像的比對問題,一般情況下有兩種技術解決:1. 超分方法 2. 将LR和HR投影到一個空間

本篇設計了一種訓練算法,旨在使得DL模型可以生成對輸入圖像分辨率魯棒的深度表示。還将這種訓練算法應用到SotA模型,并使用1:1的人臉驗證及1:N的人臉識别進行性能測試。

2. Motivation

一般用于DL模型訓練的模型都是HR的,是以在處理現實的LR圖像任務時往往表現較差,為了解決這個問題,提出了一些監控人臉資料集eg:UCCS,SCface,QMUL-SurvFace,TinyFace。但這些資料集的問題在于其多樣性比HR訓練集會小一個數量級,是以很難用于訓練SotA模型。

是以本文将采用本文提出的訓練算法将HR下的SotA模型調整到LR域,經過fine-tune後的模型可以在輸入任何分辨率圖像的情況下達到較好的性能。

3. Related works

在05年的一篇文章中,這個團隊将人臉圖像分解成了多了子頻帶進行多分辨率(

multi-resolution

)分析;19年的一篇工作提出了多分辨率字典(

multi-resolution dictionary learning

)學習算法,每個字典與一個特定的分辨率相關聯。

對于超分方法,由于使用LR圖像合成HR圖像時沒有考慮識别這一應用,是以一些身份特征就可能會丢失。是以,有人提出引入

identity loss

;此後,又有了一種

聯合訓練LR和HR patch的字典

,其目标是将LR稀疏表示超分為對應的HR圖像;還有作者提出了一種SR方法以從LR和HR圖像中學習了多層稀疏表示、身份感覺字典,以及表示間的轉換函數;在知識蒸餾提出後,又有團隊提出了學習HR及LR空間的關系的方法。

在Deep Coupled ResNet一文中,作者提出了一個主幹網絡及兩個分支網絡的思想:主幹網絡用不同分辨率的人臉進行訓練然後被用于特征提取,分支網絡使用HR和LR圖像進行訓練,然後作為特定分辨率的耦合映射(?),将HR及相應的LR特征轉換到它們差異最小的空間。

這篇文章考慮了一個共同的特征空間,可以聚類屬于同一身份的LR和HR人臉圖像,并使得在不同分辨率的人臉上保持較低的類間方差;這個團隊在此後采用GAN進一步改進了該方法。

在這篇2018 TIP中又提出了一種基于選擇性知識蒸餾的方法,也就是通過求解一個

稀疏圖優化問題

,選擇性的蒸餾最重要的面部特征。然後利用這些資訊對人臉識别模型的fine-tune過程進行正則化(?)

4. Datasets

在本篇中,僅有VGGFace2用作模型的訓練,其餘訓練集都隻用于性能測試。

4.1 VGGFace2

4.2 IJB-B

4.3 IJB-C

4.4 TinyFace

4.5 QMUL-SurvFace

5. Approach

采用StoA模型

SeNet-50

作為

Base Model

  1. 最開始文章采用VGGFace2資料集訓練SeNet-50,且用于訓練的圖檔為提取[8,256]範圍内分辨率的圖檔。這樣的訓練政策下往往由于LR圖像與HR圖像相比攜帶資訊較少而導緻模型不收斂
  2. 在第一種方式嘗試失敗後,本文又采取了兩種fine-tune的方式實作目标:1. 當機整個網絡,隻調整最後的FC層 2. 微調網絡中的所有參數; 經過嘗試,第二種微調方式在初始模型的基礎上改進了在24 pixel上的結果。

盡管有了一定的改進,但在更高分辨率下性能仍存在下降,是以本文将模型的權值平滑的調整到LR域(?);基于課程學習(

curriculum learning

)的思想,即讓模型先從容易的樣本開始學習,并逐漸進階到複雜的樣本和知識,以及

teacher-student

政策(如下圖所示)

論文學習筆記(11):Cross-resolution learning for Face RecognitionAbstract1. Introduction2. Motivation3. Related works4. Datasets5. Approach6. Experimental results7. Conclusion

初始時teacher和student都是base model形式,在訓練時向

teacher

喂的是

full resolution

的圖像,而向

student

喂的是

variable resolution

的圖像;通過從兩個模型中提取深層特征,我們可以使得在任何分辨率的輸入下,student近似輸出與teacher相同的表示——這樣也就使得student可以建構分辨率魯棒的深層表示。

除此之外,本文還利用CL設定下采樣圖像在[8,256]像素範圍内的頻率(

frequency

)以用于student網絡的輸入:

  1. 在訓練過程中,

    frequency

    線性的從0到1遞增
  2. 對圖像進行下采樣,使得在原始的長寬比下,其最短邊等于所選的分辨率
  3. 利用雙線性插值法(

    bilinear interpolation

    )在原始尺寸上進行調整
  4. 256 resize 以及224 x 224 random crop

對于損失函數:

論文學習筆記(11):Cross-resolution learning for Face RecognitionAbstract1. Introduction2. Motivation3. Related works4. Datasets5. Approach6. Experimental results7. Conclusion

這裡将softmax loss和MSE loss結合,softmax用于人臉圖像的分類,MSE loss用于提取CNN倒數第二層的深度特征損失(?看看代碼)

上式中 i ′ i' i′表示圖像 i i i的下采樣圖像,是以損失的第二項使得student在不依賴分辨率的情況下學習特征表示,且該特征表示盡可能接近從HR圖像生成的特征表示

batch size SGD momentum weight decay lr
256 0.9 1e-5 1e-3

訓練時資料集分為training set和validation set,在validation的兩部分中,一個将所有圖像下采樣到24 pixel,另一部分使用full resolution

6. Experimental results

在實驗中,本文展示了使用或使用

CL

TS

模式訓練下的性能對比。

T-C

(即使用TS模型及CL)模式下,使用上文中的損失函數,根據經驗發現最佳的平衡權重 λ = 0.1 \lambda=0.1 λ=0.1;本文在1:1人臉驗證和1:N人臉識别上對模型進行了測試,對于人臉驗證,采用

ROC

度量,對于人臉識别采用

CMC

DET

分别在open-set及close-set上進行度量。

7. Conclusion

繼續閱讀