天天看點

人臉識别論文整理——深度人臉識别的大邊緣餘弦損失

論文簡介

論文中文翻譯:《深度人臉識别的大邊緣餘弦損失》

論文名稱:《CosFace: Large Margin Cosine Loss for Deep Face Recognition》

錄用日期:2018年4月3日

摘要

  • 由于深度卷積神經網絡(CNNs)的發展,人臉識别取得了驚人的進展。人臉識别的核心任務是人臉的特征識别,包括人臉的驗證和識别。然而,傳統的深度cnn的softmax損失通常缺乏識别能力。為了解決這一問題,近年來人們提出了如center loss,large margin softmax loss和angular softmax loss等幾種損耗函數。所有這些改進的損失都有一個共同的想法:最大化類間方差和最小化類内方差。本文提出了一種新的損耗函數——大餘弦損耗(LMCL),從不同的角度實作了這一思想。更具體地說,我們通過L2歸一化特征和權重向量來消除徑向變化,将softmax損失重新表述為餘弦損失,在此基礎上引入餘弦間隔項(cosine margin term)來進一步在角度空間中最大化決策間距。通過歸一化以及最大化餘弦決策間距,實作了類内方差最小和類間方差最大。我們将LMCL訓練過得到的人臉識别模型稱為CosFace。我們在MegaFace Challenge,Youtube Faces 和LFW等最常用的人臉識别公開資料集上進行了大量的實驗,在這些資料集上取得了最先進的表現,進而證明了所提出方法的有效性。

一、簡介

  • 近年來,深度卷積神經網絡(deep convolutional neural networks, CNNs)[15, 18, 12, 9, 44]的發展顯著提高了其性能,這使得深度CNN成為計算機視覺中占主導地位的機器學習方法。人臉識别作為最常見的計算機視覺任務之一,數十年來一直被廣泛研究[37,45,22,19,20,40,2]。早期的研究是利用低層次的人臉特征建立淺層模型,而現代的人臉識别技術在深度cnn的驅動下得到了極大的發展。人臉識别通常包括兩個子任務:人臉驗證和人臉識别。這兩個任務都涉及三個階段:人臉檢測、特征提取和分類。deep CNN能夠提取幹淨的進階特征,使其能夠使用一個相對簡單的分類體系結構獲得卓越的性能:通常,多層感覺器網絡遵循arXiv:1801.09414v2 [cs]。2018年4月3日a softmax loss[35,32]。然而,最近的研究[42,24,23]發現傳統的softmax loss不足以獲得分類的判别能力。
  • 為了鼓勵更好的鑒别表現,進行了許多研究[42,5,7,10,39,23]。這些研究都有一個共同的觀點,即最大化類别間的差異和最小化類别内的差異。如[42,5,7,10,39]提出采用多損耗學習來提高特征判别能力。與傳統的softmax loss相比,這些方法在提高分類性能的同時,也存在一些額外的限制。對于[42],它隻顯式地最小化類内方差,而忽略類間方差,這可能導緻次優解。[5, 7, 10, 39]需要徹底規劃對或三組樣本的挖掘,這是一個非常耗時的過程。最近,[23]提出從一個不同的角度來解決這個問題。更具體地說,23将特征的原始歐氏空間投影到一個角度空間中,并引入一個角度間距來實作更大的類間方差。
  • 與[42,5,10]所建議的歐氏邊緣相比,角度邊緣更受青睐,因為角度的餘弦值與softmax具有内在的一緻性。餘弦公式與人臉識别中常用的相似度度量相比對。從這個角度來看,直接在不同類之間引入餘弦間距來改善餘弦相關的判别資訊更為合理。
  • 本文通過對特征向量和權重向量進行L2範數歸一化,将softmax損失重新表述為餘弦損失,以消除徑向變化,并在此基礎上引入餘弦間隔項m,進一步最大化在角度空間上的不同類别的決策間距。具體地,我們提出了一種新的算法,稱為大邊緣餘弦損失(LMCL),以歸一化特征作為輸入,通過最大化類間餘弦邊緣來學習高度分辨力的特征。形式上,我們定義一個超參數m,決策邊界由cos(θ1)−m = cos(θ2)給出,其中θ是第i類特征與權重之間的夾角。
  • 為了比較,A-softmax的決策邊界在角空間上定義為cos(mθ1) = cos(θ2),但由于餘弦函數的非單調性,在優化上存在困難。為了克服這樣的困難,我們必須為A-softmax使用一個特别分段函數的額外技巧。更重要的是,A-softmax的決策間距依賴于θ,這導緻了不同類别的決策間距不同。是以,在決策空間中,一些類間特征具有較大的特征間距,而另一些類間特征具有較小的特征間距,進而降低了判别能力。與A-Softmax不同,我們的方法定義了餘弦空間中的決策間距,進而避免了上述缺點。基于LMCL,我們建構了一個複雜的深度模型CosFace,如下圖所示。在訓練階段,LMCL引導卷積神經網絡學習具有大餘弦邊界的特征。在測試階段,從卷積神經網絡中提取人臉特征進行人臉驗證或人臉識别。 (1)提出了一種新的損失函數LMCL (loss function, LMCL)來學習人臉識别的高分辨深度特征。(2)基于LMCL所鼓勵的超球面特征分布,給出了合理的理論分析。(3)與LFW[13]、YTF[43]和Megaface等常用人臉資料庫的大多數基準相比,該方法提高了性能[17,25]。
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    建議的CosFace架構概述。在訓練階段,在不同類别之間以較大的差距學習有差別的面部特征。在測試階段,将測試資料輸入CosFace,提取人臉特征,計算餘弦相似度得分,進行人臉驗證和識别。

二、相關工作

  • 人臉識别 近年來,由于深度CNN模型的巨大成功,人臉識别取得了顯著進展[18,15,34,9]。在DeepFace[35]和DeepID[32]中,人臉識别被視為一個多類分類問題,首先引入了深度CNN模型來學習大型多身份資料集上的特征。 DeepID2[30]采用識别和驗證信号,實作更好的特征嵌入。DeepID2+[33]和DeepID3[31]的最新研究進一步探索了先進的網絡結構來提高識别性能。FaceNet[29]使用三聯體損失學習歐幾裡德空間嵌入,然後用近2億張人臉圖像訓練一個深度CNN,進而實作了最先進的性能。其他方法[41,11]也證明了深度cnn在人臉識别方面的有效性。
  • 損失函數 損失函數在深度特征學習中起着重要的作用。對比損失[5,7]和三重損失[10,39]通常用來增加歐幾裡德裕度,以便更好地進行特征嵌入。Wen等人[42]提出了中心損失來學習每個身份的深度特征中心,并使用中心來減少類内方差。Liu等人[24]通過向每個身份添加角度限制,提出了L-Softmax,以改善特征識别。Angular softmax (a - softmax)[23]通過歸一化權值改進了L-Softmax,在一系列開放集人臉識别基準上取得了更好的性能[13,43,17]。其他基于對比損失或中心損失的損失函數[47,6,4,3]也顯示了增強辨識能力的表現。
  • 歸一化方法 歸一化在近年來的深度人臉識别研究中得到了應用。[38]對softmax損失内的餘弦相似度替換内積的權值進行了歸一化。[28]對特征應用L2限制,将人臉特征嵌入到标準化空間中。注意,對特征向量或者權值向量做歸一化,在訓練時可以讓角度更集中進而獲得更小的類内角度變化。是以,不同類别之間的角度可以得到很好的優化。基于von Mises-Fisher (vMF)的方法[48,8]和A-Softmax[23]在特征學習中也采用了歸一化。

三、建議的方法

  • 在本節中,我們首先詳細介紹了所提出的LMCL(第3.1節)。并與其他損失函數進行了比較,說明了LMCL的優越性(第3.2節)。進一步描述了LMCL采用的特征歸一化技術,以闡明其有效性(第3.3節)。最後,我們對所提出的LMCL進行了理論分析(第3.4節)。
3.1 大餘弦損失
  • 我們從餘弦的角度重新考慮軟最大損失。softmax loss通過最大化ground-truth類的後驗機率将特征從不同的類中分離出來。給定一個帶有相應标号yi的輸入特征向量xi,則softmax損耗可表示為:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    其中pi表示xi被分類正确的後驗機率。N為訓練樣本數量,C為類别數。fj常表示經過全連接配接層(權值向量為Wi,bias為Bj)後特征的激活值。為了簡化,我們令Bj= 0,則fi可以表示成:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    其中θj為Wj和x之間的夾角。該公式表明向量的模和它們之間的夾角都對有驗機率值有影響。
  • 為了更有效地特征學習,權值向量W的模有必要保持不變。為此,我們通過L2範數歸一化令| |Wj| | = 1,在測試階段,一對測試人臉圖檔的識别分數通常是通過計算兩個特征向量的餘弦相似度得到。這意味着特征向量的模應該也對識别分數沒有影響,是以我們令| |x| | = s。進而後驗機率隻依賴于夾角的餘弦值。修改後的loss可以表示為:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    因為我們通過固定| |x| | = s來消除徑向方向上的變化,結果模型學習了角空間中可分離的特征。在本文中,我們将這種損失稱為Softmax loss (NSL)的歸一化版本。
  • 然而,NSL學習到的特征并不具有足夠的區分性,因為NSL隻強調正确的分類。為了解決這個問題,我們在分類邊界中引入了餘弦邊界,它自然地被納入到Softmax的餘弦公式中。
  • 以二分類為例,讓θi表示學習到的特征向量與類Ci(i = 1,2)的權重向量之間的夾角。C1的NSL力cos(θ1) > cos(θ2), C2的NSL力也類似,是以可以正确分類不同類别的特征。要發展大邊際分類器,我們進一步要求cos(θ1)−m > cos(θ2)和cos(θ2)−m > cos(θ1),其中m≥0是用來控制餘弦邊大小的固定參數。由于cos(θi)−m小于cos(θi),是以對分類的限制更加嚴格。上述分析可以很好地推廣到多類場景。是以,改變的損失通過鼓勵餘弦空間的額外邊界來加強對學習特征的識别。
  • 形式上,我們将大餘弦損失(LMCL)定義為:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    其中
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    其中N為訓練樣本數,xi為yi的真類對應的第i個特征向量,Wj為第j類的權向量,θj為wj和xi之間的夾角。
3.2 不同損失函數的比較
  • 在本小節中,我們将我們的方法(LMCL)的決策裕度與:Softmax、NSL和A-Softmax進行比較,如下圖所示。為了便于分析,我們考慮帶有類c1和C2的二進制類場景。設w1、w2分别為c1、C2的權向量。
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    二分類情形下不同損失函數的決策裕度比較。虛線表示決策邊界,灰色區域為決策邊界。
  • Softmax loss通過以下方式定義決策邊界:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    是以,它的邊界既依賴于權重向量的大小,也依賴于角度的餘弦,這導緻餘弦空間的一個重疊決策區域(margin < 0)。上圖的第一個副圖說明了這一點。如前所述,在測試階段,通常隻考慮人臉測試特征向量之間的餘弦相似度。是以,具有Softmax損耗的訓練分類器無法在餘弦空間對測試樣本進行完美分類。
  • NSL對權重向量w1和w2進行歸一化,使它們的大小為常數1,進而得到如下判定邊界:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    NSL的決策邊界如上圖的第二副圖所示。我們可以看到,通過去除徑向變化,NSL能夠很好地在餘弦空間對測試樣本進行分類,margin = 0。然而,它對噪聲的魯棒性不是很好,因為沒有決策裕度:決策邊界周圍的任何小擾動都可以改變決策。
  • A-Softmax通過引入額外裕度來改善softmax損失,使其決策邊界為:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    是以,對于C1要求θ1≤θ2 /m, C2也是如此。上圖的第三個子圖描述了這個決策區域,其中灰色區域表示決策裕度。然而,在所有θ值上,A-Softmax的裕度并不一緻,随着θ的減小,裕度減小,當θ = 0時,裕度完全消失。這将導緻兩個潛在的問題。首先,對于難度較高的課程c1和c2,它們在視覺上相似,是以在W1和W2之間的角度較小,是以邊界也較小。其次,從技術上講,必須使用一個特别的分段函數來克服餘弦函數的非單調性的困難。
  • LMCL(我們提出的)在餘弦空間而不是角度空間(如A - softmax)中定義了一個決策邊界:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    是以,對C1(C2相似)進行大邊緣分類時,将cos(θ1)最大化,cos(θ2)最小化。上圖中的最後一個子圖說明了LMCL在餘弦空間的決策邊界,在生成的角度餘弦分布中我們可以看到一個清晰的邊界(√2m)。這表明LMCL比NSL更健壯,因為決策邊界(虛線)附近的小擾動不太可能導緻錯誤的決策。餘弦邊緣一緻應用于所有樣本,不管它們的權重向量的角度。
3.3 歸一化特性
  • 該方法采用了一種歸一化方法,推導了餘弦損耗的表達式,并消除了徑向變化。**與[23]隻對權向量進行歸一化不同,我們的方法同時對權向量和特征向量進行歸一化。**是以,特征向量分布在一個超球體上,其中縮放參數s控制半徑的大小。在本小節中,我們将讨論為什麼特征歸一化是必要的,以及在提出的LMCL方法中,特征歸一化如何鼓勵更好的特征學習。
  • 從兩個方面提出了特征歸一化的必要性:首先,未進行特征歸一化的原始softmax loss隐式學習特征向量的歐幾裡得範數(L2 -範數)和角度的餘弦值;通過自适應學習L2範數來最小化整體損失,使得餘弦限制相對較弱。特别是,容易樣本的自适應L2 -範數比困難樣本大得多,彌補了餘弦度量的不足。相反,我們的方法要求整個特征向量集合具有相同的L2 -範數,這樣學習隻依賴餘弦值來發展判别能力。将來自同一類的特征向量聚在一起,将來自不同類的特征向量在超球面上拉開。此外,我們考慮了模型最初開始最小化LMCL的情況。給定一個特征向量x,讓cos(θi)和cos(θj)分别表示兩類的餘弦分數。在特征不歸一化的情況下,LMCL力為||x||(cos(θi)−m) > ||x||cos(θj)。注意cos(θi)和cos(θj)最初可以互相比較。是以,隻要(cos(θi)−m)小于cos(θj),就需要減小||x||以使損失最小化,這使優化退化。是以,在LMCL的監督下,特征歸一化是至關重要的,特别是當網絡從零開始訓練時。同樣,固定尺度參數s比自适應學習更有利。
  • 此外,尺度參數s應設定為适當大的值,以獲得性能更好的特征和更低的訓練損失。對于NSL,損失是持續的s越大,s越小,收斂性就越差,甚至沒有收斂性。對于LMCL,我們還需要足夠大的s,以確定有足夠的超空間來進行特征學習,并具有預期的大裕度。
  • 接下來,我們證明了參數s應該有一個下界來獲得期望的分類性能。已知歸一化學習特征向量x和機關權向量W,我們将類總數表示為c。假設學習的特征向量分别位于超球面上,并以相應的權向量為中心。設pw表示類中心的期望最小後驗機率(即W), s的下界由1給出:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
  • 在此基礎上,我們可以推斷出,對于特定數目的類,如果我們期望得到一個最優的分類量,s應該不斷擴大。此外,保持固定的Pw,所需的s應該更大,以處理更多的類,因為類數量的增加增加了分類的難度,在相對緊湊的空間。是以,對于類内距離小、類間距離大的特征,需要一個具有大半徑s的超球來嵌入。
3.4 LMCL的理論分析
  • 前面的小節主要從分類的角度讨論LMCL。在超球面上識别特征的學習中,餘弦邊是增強特征識别能力的重要手段。詳細分析餘弦邊(即超參數m的界)的定量可行性選擇是必要的。m的最佳選擇可能會導緻更有前途的學習高度區分的面部特征。接下來,我們深入研究了特征空間中的決策邊界和角邊界,推導出超參數m的理論界。
  • 首先,像前面一樣考慮類C1和C2的二類情況,假設歸一化特征向量x已知。設Wi表示歸一化的權值向量,θi表示x與Wi之間的夾角。對于NSL,決策邊界定義為cosθ1−cosθ2= 0,相當于下圖左側W1和W2的角平分線。這解決了NSL監督下的模型将底層特征空間劃分為兩個相近的區域,在這兩個區域中,邊界附近的特征非常模糊(即,屬于任何一類都可以接受)。相比之下,對于C1, LMCL驅動由cosθ1−cosθ2= m表示的決策邊界,其中θ1應比θ2小得多(C2類似)。是以,類間方差增大而類内方差減小。
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    從特征角度對LMCL的幾何解釋。不同的顔色區域代表不同類别的特征空間。與NSL相比,LMCL具有相對緊湊的特征區域。
  • 回到上圖,可以觀察到最大的角裕度取決于W1和W2之間的角度。是以,當給定W1和W2時,餘弦裕度的變量範圍是有限的。具體來說,假設屬于第i類的所有特征向量與第i類對應的權向量Wi完全重疊。換句話說,每個特征向量都與第i類的權向量相同,顯然,特征空間處于一種極端的情況,所有的特征向量都位于它們的類中心。在這種情況下,決策邊界的裕度已被最大化(即嚴格的餘弦裕度上界)。
  • 一般來說,我們假設所有的特性都很好地分離了,并且總共有幾個C類。假設m的理論變量範圍為:0≤m≤(1−max(WiTWj)),其中i, j≤n, i != j。softmax loss試圖最大化來自兩個不同類别的兩個權重向量之間的夾角,以實作完美的分類。是以,很明顯,softmax損失的最優解應該均勻地配置設定權向量在一個機關超球上。基于此假設,引入餘弦邊m的變量範圍可推知如下2:
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    其中,C為訓練班數,K為學習特征的維數。不等式表明,随着類數的增加,類間餘弦邊的上界相應減小。特别是當類數遠遠大于特征維數時,餘弦邊界的上界會變得更小。
  • 更大的m∈[0,C / C−1)的合理選擇應能有效促進高分辨力特征的學習。然而,在實際應用中,由于特征空間的消失,參數m通常無法達到理論上界。即根據對應類的權重向量将所有的特征向量集中在一起。實際上,當m太大時,模型無法收斂,因為cos限制(即兩類cosθ1−m > cosθ2或cosθ2−m > cosθ1)變得更嚴格,難以滿足。此外,m過大的餘弦限制使得訓練過程對噪聲資料更加敏感。不斷增加的m由于無法收斂而在某一點上開始降低整體性能。
  • 我們進行了一個玩具實驗,以更好地可視化功能和驗證我們的方法。我們從包含足夠樣本的8個不同的身份中選擇人臉圖像,以清晰地顯示地塊上的特征點。利用原始的軟最大損耗和所提出的LMCL在不同的m設定下訓練多個模型。為了簡單,我們提取了人臉圖像的二維特征。如前所述,m不應大于1−cosπ/4(約0.29),是以我們設定了三個m選項進行比較,分别為m = 0、m = 0.1和m = 0.2。如下圖所示,第一行和第二行分别是特征在歐氏空間和角空間中的分布。我們可以看到,原始的softmax損失産生模糊的決策邊界,而提出的LMCL更好。随着m的增加,不同等級之間的角度邊界被放大了。
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    對8個具有二維特征的恒等式進行了不同損失函數的玩具實驗。第一行将二維特征映射到歐氏空間上,第二行将二維特征投影到角空間上。随着裕度m的增加,差距變得明顯。

四、實驗

4.1 實作細節
  • 預處理

    首先,利用MTCNN[16]對整組訓練和測試圖像進行人臉區域和地标檢測;然後,利用面部的5個點(兩隻眼睛、鼻子和兩個嘴角)進行相似性變換。然後,我們獲得裁剪的面,然後調整大小為112 × 96。在[42,23]之後,RGB圖像中的每個像素(在[0,255]中)通過減去127.5然後除以128進行歸一化。

  • 訓練

    為了與使用小訓練資料集[17]的現有結果進行直接和公平的比較,我們在一個小訓練資料集上訓練我們的模型,該資料集是公開可用的CASIAWebFace[46]資料集,包含來自10,575名受試者的0.49萬張人臉圖像。我們還使用一個大型訓練資料集來評估我們的方法的性能,以便與基準測試人臉資料集上的最新結果(使用大型訓練資料集)進行基準比較。我們在本研究中使用的大型訓練資料集由幾個公共資料集和一個私人人臉資料集組成,包含來自90K多個身份的約5M張圖像。訓練面被水準翻轉以增強資料。在我們的實驗中,我們删除了出現在測試資料集中身份的人臉圖像。

    為了公平比較,我們在工作中使用的CNN架構類似于[23],它有64個卷積層,并且基于殘差機關[9]。根據經驗将式(4)中的标度參數s設為64。我們使用Caffe[14]實作對損耗層的修改,并運作模型。CNN模型采用SGD算法進行訓練,batch size為64,在8個gpu上。重量衰減設定為0.0005。對于小資料集的訓練,初始學習率為0.1,在16K, 24K, 28k次疊代時除以10,在30k次疊代時完成訓練過程。而在大資料集上的訓練在240k次時終止,在80K次、140K次、200K次時初始學習率下降0.05。

  • 測試

    在測試階段,将原始圖像的特征和翻轉圖像的特征拼接在一起,構成最終的人臉表征。計算特征的餘弦距離作為相似性評分。最後,通過門檻值和評分排序進行人臉驗證和識别。我們在幾個流行的公共人臉資料集上測試了我們的模型,包括LFW[13]、YTF[43]和MegaFace[17,25]。

4.2 探索性實驗
  • m的效果

    裕度參數m在LMCL中起着關鍵作用。在這部分我們進行實驗調查的影響。通過改變m從0到0.45(如果m大于0.45,模型将無法收斂),我們使用小型訓練資料(CASIA-WebFace[46])來訓練我們的CosFace模型,并在LFW[13]和YTF[43]資料集上評估其性能,如下圖所示。

    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失

    不同裕度參數的CosFace在LFW[13]和YTF[43]上的精度(%)

    如圖所示,我們可以看到,沒有邊際(在這種情況下m=0)的模型導緻了最差的性能。随着m的增加,兩個資料集的精度都在不斷提高,在m = 0.35時達到飽和。這說明了邊緣m的有效性。通過增加邊緣m,可以顯著提高學習特征的鑒别能力。本研究在後續實驗中将m設定為固定的0.35。

  • 特征歸一化的影響

    為了研究我們方法中特征歸一化方案的效果,我們在CASIA-WebFace上訓練我們的CosFace模型并比較它們在LFW[13]、YTF[43]和Megaface Challenge 1(MF1)[17]上的性能。需要注意的是,未經歸一化訓練的模型由softmax loss初始化,然後由所提出的LMCL監督。比較結果見表1。很明顯,在三個資料集上,使用特征歸一化方案的模型始終優于沒有特征歸一化方案的模型。如上所述,特征歸一化去除了基本的方差,并且學習到的特征可以在角空間中更有差別性。實驗驗證了這一點。

    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    在Megface Challenge 1 (MF1)上,我們的模型在特征歸一化和不歸一化的情況下進行了比較。“rank 1”是指排名1的人臉識别精度。“Veri”指的是10-6 FAR(錯誤接受率)下的人臉驗證TAR(真實接受率)。
4.3 與最先進的損失函數進行比較
  • 在這一部分中,我們将所提出的LMCL的性能與最新的損耗函數進行了比較。在[23]中的實驗設定之後,我們在CAISAWebFace[46]上使用[23]中描述的64層CNN架構,在提出的LMCL的指導下訓練模型。LFW、YTF和MF1的實驗對比見下表。為了比較公平,我們嚴格遵循模型結構(64層resnet - similar cnn)和SphereFace[23]的詳細實驗設定。
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失

    比較提出的LMCL與最先進的損失功能在人臉識别社群。本表中所有的方法都使用相同的訓練資料和相同的64層CNN架構

    從表中可以看出,與其他損失相比,LMCL在三個資料集中始終取得有競争力的結果。特别是,我們的方法不僅超越了特征歸一化的A-Softmax(表中稱為A-Softmax- normfea)的性能,而且顯著優于YTF和MF1上的其他損失函數,說明了LMCL的有效性

4.4 整體基準比較

4.4.1 LFW和YTF的評價

  • LFW[13]是一個标準的無限制人臉驗證測試資料集。它包含了來自該網站5749個身份的13233張人臉圖像。我們嚴格按照無限制标記外部資料[13]的标準協定對我們的模型進行評估,并對6000對測試圖像報告結果。YTF[43]包含了1595人的3425個視訊。一個視訊剪輯的平均長度是181.3幀。所有的視訊片段都是從YouTube上下載下傳的。我們遵循不受限制的标簽外部資料協定,并報告5000對視訊的結果。
  • 如下表所示,所提出的CosFace在LFW和YTF上分别獲得了99.73%和97.6%的最新結果。FaceNet在LFW上取得了亞軍的表現,因為它的圖像資料集規模很大,大約有2億張人臉圖像。就YTF而言,我們的模型在所有其他方法中居于首位。
    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    LFW和YTF資料集上的人臉驗證(%)。“#Models”表示用于評估的方法中使用的模型的數量。

4.4.2 評價MegaFace

  • MegaFace[17,25]是最近釋出的一個非常具有挑戰性的大規模人臉識别和驗證測試基準,它包含一個圖庫集和一個探針集。Megface的畫廊由超過100萬張人臉圖像組成。探測集有兩個現有資料庫:Facescrub[26]和FGNET[1]。在這項研究中,我們使用Facescrub資料集(包含530名名人的106863張人臉圖像)作為探針集,來評估我們的方法在Megaface Challenge 1 和 Challenge 2上的性能。
  • MegaFace Challenge 1 (MF1)

    在megface Challenge 1[17]上,該圖檔集包含了從Flickr photos[36]收集到的690K個人的超過100萬張圖檔。下表總結了我們在MegaFace兩種協定上訓練的模型的結果,其中訓練資料集小于50萬張圖像視為小資料集,否則視為大資料集。CosFace方法在兩種協定的識别和驗證任務中都顯示了其優越性。

    人臉識别論文整理——深度人臉識别的大邊緣餘弦損失
    MF1人臉識别與驗證評估。“rank 1”是指排名1的人臉識别精度。“Veri”指的是10-6 FAR(錯誤接受率)下的人臉驗證TAR(真實接受率)。
  • MegaFace Challenge 2 (MF2)

    在MegaFace Challenge 2[25]中,所有的算法都需要使用MegaFace提供的訓練資料。Megface Challenge 2的訓練資料包含470萬張臉和672K個身份,與大型協定相對應。圖庫集有100萬張不同于挑戰1圖庫集的圖檔。毫不奇怪,我們的方法赢得了表5中挑戰2的第一名,以很大的優勢(排名1的識别準确性為1.39%,驗證性能為5.46%)建立了一個新的最先進水準。

五、總結

  • 在本文中,我們提出了一種創新的LMCL方法來引導深度cnn學習高分辨的人臉特征。我們提供了一個良好的幾何和理論解釋來驗證所提出的LMCL的有效性。我們的方法始終如一地在幾個面基準上實作了最先進的結果。我們希望我們通過LMCL學習鑒别特征的實質性探索将有益于人臉識别社群。

繼續閱讀