![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLhZjZjNGO0gjZhFjNyMTOiFTZwQzNlZmY2EzN1EjMmR2Lc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
目錄
- Abstract
- 1. Introduction
- 2. Motivation
- 3. Related works
- 4. Datasets
-
- 4.1 VGGFace2
- 4.2 IJB-B
- 4.3 IJB-C
- 4.4 TinyFace
- 4.5 QMUL-SurvFace
- 5. Approach
- 6. Experimental results
- 7. Conclusion
Abstract
目前的人臉識别問題在跨分辨率的人臉比對識别(即
LR-HR
)上仍知之甚少,是以本文有以下四點貢獻:
- 提出了一個訓練程式去fine-tune一個state-of-art模型,使其可以提取分辨率魯棒的深層特征(
)resolution-robust
- 使用高分辨率資料集(IJB-B及IJB-C)及監控相機資料集(QMUL-SurvFace,TinyFace,SCface)對模型進行測試評估
- 提出的訓練算法同樣改善了state-of-art算法在
比對上的性能LR-LR
- 與超分技術結合可以更有效的提升提出算法的性能
1. Introduction
對于LR輸入圖像的比對問題,一般情況下有兩種技術解決:1. 超分方法 2. 将LR和HR投影到一個空間
本篇設計了一種訓練算法,旨在使得DL模型可以生成對輸入圖像分辨率魯棒的深度表示。還将這種訓練算法應用到SotA模型,并使用1:1的人臉驗證及1:N的人臉識别進行性能測試。
2. Motivation
一般用于DL模型訓練的模型都是HR的,是以在處理現實的LR圖像任務時往往表現較差,為了解決這個問題,提出了一些監控人臉資料集eg:UCCS,SCface,QMUL-SurvFace,TinyFace。但這些資料集的問題在于其多樣性比HR訓練集會小一個數量級,是以很難用于訓練SotA模型。
是以本文将采用本文提出的訓練算法将HR下的SotA模型調整到LR域,經過fine-tune後的模型可以在輸入任何分辨率圖像的情況下達到較好的性能。
3. Related works
在05年的一篇文章中,這個團隊将人臉圖像分解成了多了子頻帶進行多分辨率(
multi-resolution
)分析;19年的一篇工作提出了多分辨率字典(
multi-resolution dictionary learning
)學習算法,每個字典與一個特定的分辨率相關聯。
對于超分方法,由于使用LR圖像合成HR圖像時沒有考慮識别這一應用,是以一些身份特征就可能會丢失。是以,有人提出引入
identity loss
;此後,又有了一種
聯合訓練LR和HR patch的字典
,其目标是将LR稀疏表示超分為對應的HR圖像;還有作者提出了一種SR方法以從LR和HR圖像中學習了多層稀疏表示、身份感覺字典,以及表示間的轉換函數;在知識蒸餾提出後,又有團隊提出了學習HR及LR空間的關系的方法。
在Deep Coupled ResNet一文中,作者提出了一個主幹網絡及兩個分支網絡的思想:主幹網絡用不同分辨率的人臉進行訓練然後被用于特征提取,分支網絡使用HR和LR圖像進行訓練,然後作為特定分辨率的耦合映射(?),将HR及相應的LR特征轉換到它們差異最小的空間。
這篇文章考慮了一個共同的特征空間,可以聚類屬于同一身份的LR和HR人臉圖像,并使得在不同分辨率的人臉上保持較低的類間方差;這個團隊在此後采用GAN進一步改進了該方法。
在這篇2018 TIP中又提出了一種基于選擇性知識蒸餾的方法,也就是通過求解一個
稀疏圖優化問題
,選擇性的蒸餾最重要的面部特征。然後利用這些資訊對人臉識别模型的fine-tune過程進行正則化(?)
4. Datasets
在本篇中,僅有VGGFace2用作模型的訓練,其餘訓練集都隻用于性能測試。
4.1 VGGFace2
4.2 IJB-B
4.3 IJB-C
4.4 TinyFace
4.5 QMUL-SurvFace
5. Approach
采用StoA模型
SeNet-50
作為
Base Model
- 最開始文章采用VGGFace2資料集訓練SeNet-50,且用于訓練的圖檔為提取[8,256]範圍内分辨率的圖檔。這樣的訓練政策下往往由于LR圖像與HR圖像相比攜帶資訊較少而導緻模型不收斂
- 在第一種方式嘗試失敗後,本文又采取了兩種fine-tune的方式實作目标:1. 當機整個網絡,隻調整最後的FC層 2. 微調網絡中的所有參數; 經過嘗試,第二種微調方式在初始模型的基礎上改進了在24 pixel上的結果。
盡管有了一定的改進,但在更高分辨率下性能仍存在下降,是以本文将模型的權值平滑的調整到LR域(?);基于課程學習(
curriculum learning
)的思想,即讓模型先從容易的樣本開始學習,并逐漸進階到複雜的樣本和知識,以及
teacher-student
政策(如下圖所示)
初始時teacher和student都是base model形式,在訓練時向
teacher
喂的是
full resolution
的圖像,而向
student
喂的是
variable resolution
的圖像;通過從兩個模型中提取深層特征,我們可以使得在任何分辨率的輸入下,student近似輸出與teacher相同的表示——這樣也就使得student可以建構分辨率魯棒的深層表示。
除此之外,本文還利用CL設定下采樣圖像在[8,256]像素範圍内的頻率(
frequency
)以用于student網絡的輸入:
- 在訓練過程中,
線性的從0到1遞增frequency
- 對圖像進行下采樣,使得在原始的長寬比下,其最短邊等于所選的分辨率
- 利用雙線性插值法(
)在原始尺寸上進行調整bilinear interpolation
- 256 resize 以及224 x 224 random crop
對于損失函數:
這裡将softmax loss和MSE loss結合,softmax用于人臉圖像的分類,MSE loss用于提取CNN倒數第二層的深度特征損失(?看看代碼)
上式中 i ′ i' i′表示圖像 i i i的下采樣圖像,是以損失的第二項使得student在不依賴分辨率的情況下學習特征表示,且該特征表示盡可能接近從HR圖像生成的特征表示
batch size | SGD momentum | weight decay | lr |
---|---|---|---|
256 | 0.9 | 1e-5 | 1e-3 |
訓練時資料集分為training set和validation set,在validation的兩部分中,一個将所有圖像下采樣到24 pixel,另一部分使用full resolution
6. Experimental results
在實驗中,本文展示了使用或使用
CL
及
TS
模式訓練下的性能對比。
在
T-C
(即使用TS模型及CL)模式下,使用上文中的損失函數,根據經驗發現最佳的平衡權重 λ = 0.1 \lambda=0.1 λ=0.1;本文在1:1人臉驗證和1:N人臉識别上對模型進行了測試,對于人臉驗證,采用
ROC
度量,對于人臉識别采用
CMC
和
DET
分别在open-set及close-set上進行度量。