天天看點

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

文章目錄

  • 論文簡介
  • 論文研讀
    • Introduction
    • Prior Work
    • Face De-spoofing
      • A Case Study of Spoof Noise Pattern
      • De-Spoof Network
      • DQ Net and VQ Net
      • Loss functions
    • Experimental Results
      • Experimental Setup
      • Ablation Study
      • Experimental Comparison
      • Qualitative Experiments
    • Conclusions
  • 資源連結

Face De-Spoofing: Anti-Spoofing via Noise Modeling

論文簡介

一、許多先前的工作都是研究和開發判别模型通過差別真假臉的的細微差異來實作人臉反欺騙,這些方法将圖像視為一個不可分割的整體,對圖檔進行整體處理而沒有對欺騙過程進行清楚的模組化。受到噪聲模組化以及去噪算法的影響,提出噪聲模組化的人臉反欺騙方法:通過将僞造人臉分解為僞造噪聲以及真實人臉,然後利用僞造噪聲進行分類來實作人臉反欺騙

二、本文通過CNN架構實作,通過提出适當限制以及監督來彌補分解圖像沒有

ground truth

的問題

三、通過在大量人臉反欺騙資料集上的評估,其結果顯示噪聲模組化的反欺騙模型有希望改進人臉反欺騙性能,此外,估計的欺騙噪聲通過可視化的方式提供了有助于了解每種欺騙媒體增加的欺騙噪聲

論文研讀

Introduction

作為最常見的欺騙,列印攻擊和重播攻擊已經從不同的角度進行了很好的研究。基于線索的方法旨在檢測具有活體特征的線索(例如,眨眼、頭部運動)進行判别。但這些方法都是可以被視訊重播攻擊所迷惑。基于紋理的方法試圖使用

LBP

HOG

等手工特征比較真實面部和欺騙面部之間的紋理差異。類似于基于紋理的方法,基于CNN的方法設計了一個統一的特征提取和分類過程。對于基于softmax進行二分類監督訓練,但往往具有過拟合風險。無論從哪個角度來看,幾乎所有的前人工作都将人臉反欺騙視為一個黑盒二分類問題。相比之下,本文通過模組化的方式從原始圖像生成欺騙圖像的過程來打開黑盒。

受到經典

de-X

問題的啟發,例如圖像去噪和去模糊。在圖像去噪中,被破壞的圖像被認為是加性噪聲(例如,椒鹽噪聲和高斯白噪聲)的退化。在圖像去模糊中,未被破壞的圖像由于運動而退化,這可以被描述為卷積的過程。類似地,在面部反欺騙中,欺騙圖像可以被視為實時圖像帶有來自欺騙媒體和環境的一些“特殊”噪聲的二次渲染。是以,自然的問題是,當給定欺騙圖像時,類似于圖像去噪,我們是否能恢複潛在的真實圖像

答案是肯定的。本文展示了如何做到這一點。如下圖所示,我們把一個僞造人臉分解成僞造噪聲和一個真實臉的過程稱為“人臉去欺騙”。與之前的de-X工作類似,退化圖像 x ∈ R m {\text{x}} \in {\mathbb{R}^m} x∈Rm可以表述為原始圖像 x ^ \widehat {\text{x}} x

,退化矩陣 A ∈ R m × m {\text{A}} \in {\mathbb{R}^{m \times m}} A∈Rm×m以及加性噪聲 n ∈ R m {\text{n}} \in {\mathbb{R}^m} n∈Rm的函數

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The illustration of face spoofing and anti-spoofing processes. De-spoofing process aims to estimate a spoof noise from a spoof face and reconstruct the live face. The estimated spoof noise should be discriminative for face anti-spoofing.

x = A x ^ + n = x ^ + ( A − I ) x ^ + n = x ^ + N ( x ^ ) {\text{x = A}}\widehat {\text{x}} + {\text{n}} = \widehat {\text{x}} + ({\text{A}} - \mathbb{I})\widehat {\text{x}} + {\text{n}} = \widehat {\text{x}} + N(\widehat {\text{x}}) x = Ax

+n=x

+(A−I)x

+n=x

+N(x

)

其中 N ( x ^ ) = ( A − I ) x ^ + n N(\widehat {\text{x}})=({\text{A}} - \mathbb{I})\widehat {\text{x}} + {\text{n}} N(x

)=(A−I)x

+n為圖像相關的噪聲函數,我們并不求解這裡的 A \text{A} A和 n \text{n} n,而是使用神經網絡去估計 N ( x ^ ) N(\widehat {\text{x}}) N(x

)。本質上,通過估計 N ( x ^ ) N(\widehat {\text{x}}) N(x

)和 x ^ \widehat {\text{x}} x

的目的是剝離欺騙噪聲,重建原始的活體人臉。同樣,如果給定一個活體人臉,

Face de-spoofing

模型應該傳回自身并加上零噪聲。需要注意的是,本文的

Face de-spoofing

被設計為處理紙張攻擊、重播攻擊和可能的化妝攻擊,但實驗僅限于前兩個PAs(

Presentation Attacks

)。

Face de-spoofing有兩點優勢:

1)它逆轉或撤銷了欺騙生成過程,這有助于我們對不同欺騙媒體的欺騙噪聲模式進行模組化和可視化

2)欺騙噪聲本身在真實圖像和欺騙圖像之間是有差別的,是以對于面部反欺騙是有用的

face de-spoofing

有以下幾個明顯的困難需要克服:

No Ground Truth:圖像

de-X

工作通常使用合成資料,其中原始的未退化圖像可以用作監督學習的

ground truth

。相比之下,我們無法獲得 x ^ \widehat {\text{x}} x

,是以沒有

ground truth

。其中 x ^ \widehat {\text{x}} x

是欺騙人臉圖像對應的活體人臉

No Noise Model:對于欺騙模式的噪聲沒有全面的研究和了解。是以,并不清楚如何限制解空間來忠實地估計欺騙噪聲模式

Diverse Spoof Mediums:每種類型的欺騙都利用不同的欺騙媒體來生成欺騙圖像。每種欺騙媒介代表一種特定類型的噪聲模式

為了應對這些挑戰,作者通過先前的知識和案例研究的結論提出了一些限制和監督措施,如下所示:

假設一個真實的人臉沒有欺騙噪聲,則我們強加的限制N(x)為 0 0 0。基于我們的研究,我們假設欺騙圖像的欺騙噪聲是普遍存在(即它在圖像的空間域中無處不在)且可重複,即它是圖像中某些特定噪聲的空間重複。重複性可以通過在傅立葉域中最大化估計噪聲的高頻幅度來促進

根據文獻《Learning deep models for face anti-spoofing: Binary or

auxiliary supervision》中提出的限制和輔助監督,本文提出了一種新的CNN結構。給定一幅圖像,設計一個CNN來合成欺騙噪聲模式并重建相應的實時圖像。為了檢查重建的實時圖像,我們以端到端的方式訓練了另一個具有輔助監督并類似GAN的鑒别器的CNN。這兩個網絡旨在確定重建圖像的品質,包括活體圖像和欺騙圖像的區分度,以及合成的活體圖像的視覺可信度。

概括起來,這項工作的主要貢獻包括:

◇提供了一種新的視角,通過将欺騙人臉圖像反向分解為真實人臉和欺騙噪聲來檢測來自列印攻擊和重播攻擊的欺騙人臉

◇提出了一種新的用于face de-spoofing的CNN架構,其中施加了适當的限制和輔助監督

◇我們通過face de-spoofing對欺騙噪聲模式的可視化貢獻來證明face de-spoofing的價值

Prior Work

本文從兩個角度回顧了與本次工作最相關的先前工作:基于紋理的人臉反欺騙和

de-X

問題

Texture-based Face Anti-spoofing

紋理分析被廣泛應用于人臉反欺騙和其他計算機視覺任務,其中定義一個有效的特征表示最為關鍵的一環。早期的工作應用手工制作的特征描述符,如

LBP,HoG,SIFT

SURF

,将人臉投影到低維嵌入。然而,這些手工制作的特征并不是專門設計來捕捉欺騙面部的細微差别,是以這種嵌入的方式難以捕捉到活體人臉與欺騙人臉的細微差别,此外,這些特征對于諸如照明、姿勢等的變化可能不穩定。為了克服這些困難,研究人員在不同的域中解決這個問題,如

HSV

YCbCr

顔色空間,

時域

傅裡葉頻譜

進入深度學習時代,研究人員旨在建立更高精度的深度模型。

CNN

的大部分工作都是将人臉反欺騙作為一個二分類問題來處理,并應用

softmax

損失函數。與手工制作的特征相比,這種模型在内部測試(即在同一資料集内進行訓練和測試)方面取得了顯著的改進。然而,在交叉測試(即在不同的資料集上訓練和測試)過程中,由于對訓練資料的過度拟合,這些CNN模型表現出較差的泛化能力。一些研究者觀察到

softmax

損失的過拟合問題後提出了新的輔助驅動損失函數來代替

softmax

來監督

CNN

就我們所知,所有以前的方法都是判别模型。隻有少數論文試圖對欺騙噪聲模式的類型和屬性進行分類。在這項工作中,我們分析了欺騙噪聲的特性,并設計了一個類

GAN

的生成模型來估計欺騙噪聲模式并将其從欺騙圖像中剝離。我們相信,通過分解欺騙圖像,CNN可以更直接、更有效地分析欺騙噪聲,并獲得更多應對人臉反欺騙的知識。

De-X problems

De-X

問題,如去噪、去模糊、去馬賽克、超分辨率和圖像修複是經典的低級視覺問題,可消除圖像的退化效果或僞影。一般去噪工作假設加性高斯噪聲,研究人員提出非局部濾波器或CNNs來利用圖像中固有的相似性。對于去馬賽克和超分辨率,許多模型是從給定的低品質輸入和高品質ground truth對中學習。在圖像修複中,使用者在蒙版圖中标記要修複的區域,并基于現有的面片紋理和無蒙版區域中的整體視圖結構應用填充

現有的

de-X

問題的一個優點是大多數圖像退化可以容易地合成。這帶來兩個好處:

1)它為模型訓練提供了輸入的退化樣本和用于監督的golden ground-truth原始圖像

2)易于合成大量資料用于訓練和評估

與此相反的是,由于欺騙所造成的退化是多方面、複雜和微妙的。它包括兩個階段的退化:一個來自欺騙媒體(例如,紙和數字螢幕),另一個來自欺騙媒體與成像環境的互動。每個階段都包括大量的變化,如媒介類型,照明,非剛性變形和傳感器類型等。這些變化的結合使得整體退化變化性很大。是以,通過合成退化圖像來模仿真實的欺騙幾乎是不可能的,與傳統的

de-X

問題相比,

face de-spoofing

面臨明顯的挑戰

如果沒有退化圖像的

ground truth

face de-spoofing

就成為一個非常具有挑戰性的問題。在這項工作中,我們提出了一個具有全新的損失函數以及監督的

encoder-decoder

結構以解決反欺騙問題

Face De-spoofing

在本節中,我們從欺騙噪聲模式的案例研究開始,它展示了噪聲的一些重要特征。這項研究激勵我們設計新穎的CNN架構

A Case Study of Spoof Noise Pattern

face de-spoofing

的核心任務是估計給定人臉圖像中與欺騙相關的噪聲模式。盡管使用了強大的

CNN

模型,我們仍然面臨着在沒有噪聲模式的

ground truth

情況下學習的挑戰。為了應對這一挑戰,我們希望首先對噪聲模式進行案例研究,目的是回答以下問題:

1)所述方程是否是一個好的噪聲模組化模型;2)欺騙噪聲具有什麼樣的特征

使用 I ^ \widehat {\text{I}} I

代表真實面部,通過在數字裝置上使用列印紙或視訊回放,攻擊者可以制造一個來自 I ^ \widehat {\text{I}} I

的欺騙圖像 I \text{I} I,考慮到兩者圖像之間沒有非剛性變形,我們将從 I ^ \widehat {\text{I}} I

到 I \text{I} I的退化概括為以下步驟:

1、Color distortion:顔色失真是由于欺騙媒體(如LCD屏或碳粉盒)的色域較窄造成的。它是從原始顔色空間到更小的顔色子空間的投影。該噪聲取決于目标的顔色強度,是以在退化期間,它可以作為退化矩陣應用于真實面部 I ^ \widehat {\text{I}} I

2、Display artifacts:欺騙媒介通常使用幾個鄰近的點/傳感器來近似一個像素的顔色,并且它們也可以以不同于原始尺寸的方式顯示面部。近似和下采樣過程會導緻一定程度的高頻資訊丢失、模糊和像素擾動。這種噪聲由于依賴于目标對象,是以也可以作為退化矩陣

3、Presenting artifacts:當向錄影機呈現欺騙媒體時,媒體與環境互相作用,并帶來幾個假象,包括表面的反射和透明。這種噪聲可應用為加性噪聲

4、Imaging artifacts:在相機的傳感器(如互補金屬氧化物半導體和電荷耦合器件)上成像點陣圖案(如螢幕像素)會導緻光的幹涉。這種效應導緻混疊并産生莫爾圖案,出現在重播攻擊和一些具有強晶格僞影的印刷攻擊中。這種噪聲可應用為加性噪聲

這四個步驟表明,欺騙圖像 I \text{I} I可以通過對真實活體圖像 I ^ \widehat {\text{I}} I

應用退化矩陣和加性噪聲來生成,這與前面所述方程具有一緻性。欺騙圖像是真實圖像和圖像相關噪聲的總和,為了進一步驗證這個模型,我們在下圖中展示了一個例子

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The illustration of the spoof noise pattern. Left: live face and its local regions. Right: Two registered spoofing faces from print attack and replay attack. For each sample, we show the local region of the face, intensity difference to the live image, magnitude of 2D FFT, and the local peaks in the frequency domain that indicates the spoof noise pattern. Best viewed electronically.

給定一個高品質的真實圖像,我們小心地通過列印和重播攻擊産生兩個具有最小非剛性變形欺騙圖像。在每個欺騙圖像與真實圖像配準之後,如果我們要對欺騙圖像執行

de-spoofing

,則真實圖像變成

ground truth

真實圖像(将真實圖像作為

ground truth

,這友善比較從真實圖像所得的欺騙圖像通過去噪而獲得的僞真實圖像與原真實圖像的差異)。這允許我們計算真實圖像和欺騙圖像之間的差異,即噪聲模式 N ( I ^ ) N(\widehat {\text{I}}) N(I

)。為了分析其頻率特性,我們對欺騙噪聲進行了快速傅立葉變換,并顯示了2D頻移幅度響應(

2D shifted magnitude response

在這兩種欺騙情況下,我們觀察到低頻域中的高響應,這與顔色失真和顯示僞影有關。在印刷攻擊中,步驟3中的重複噪聲導緻高頻域中的一些“峰值”響應。類似地,在重播攻擊中,可見的摩爾紋在低頻域中反映為幾個雜散,而導緻摩爾紋的晶格圖案在高頻域中表示為峰值。此外,由于欺騙媒體的均勻紋理,欺騙模式在圖像域中均勻分布。并且重複模式在頻域中的高響應準确地證明了它廣泛地出現在圖像中,是以可以被視為無處不在。

在這種理想的配準下,真實圖像和欺騙圖像之間的比較為我們提供了對欺騙噪聲模式的基本了解。它是一種紋理,重複且無處不在。基于這種模組化和噪聲特性,我們設計了一個網絡來估計噪聲,而無需像本案例研究那樣通路精确配準的

ground truth

真實圖像

De-Spoof Network

Network Overview

下圖展示了所提出方法的網絡結構,一共包括三個部分:

De-Spoof Net

(

DS Ne

,去欺騙網絡),

Discriminative Quality Net

(

DQ Net

,品質判别網絡), and

Visual Quality Net

VQ Net

,視覺品質網絡)

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The proposed network architecture.

DS Net

用于估計輸入圖像 I \text{I} I的噪聲模式 N \text{N} N,即 N ( I ^ ) N(\widehat {\text{I}}) N(I

)的輸出。真實人臉圖像 I ^ \widehat {\text{I}} I

可由輸入圖像 I \text{I} I減去估計噪聲 N \text{N} N,這種重建的圖像 I ^ \widehat {\text{I}} I

應該既具有視覺品質也具有活體效應,這兩種狀态的評估分别受到

DQ Net

VQ Net

的關注。下圖顯示了網絡的詳細結構資訊,整個網絡可以實作端到端的訓練

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The network structure of DS Net, DQ Net and VQ Net. Each convolutional layer is followed by an exponential linear unit (ELU) and batch normalization layer. The input image size for DS Net is 256 × 256 × 6. All the convolutional filters are 3 × 3. 0\1 Map Net is the bottom-left part, i.e., conv1-10, conv1-11, and conv1-12.

作為網絡的核心部分,

DS Net

被設計成

encoder-decoder

結構,其輸入為圖像 I ∈ R 256 × 256 × 6 {\text{I}} \in {\mathbb{R}^{256 \times 256 \times 6}} I∈R256×256×6,其中的6個通道為

RGB+HSV

顔色空間,這項措施來源于《Atoum, Y ., Liu, Y ., Jourabloo, A., Liu, X.: Face anti-spoofing using patch and depth-based cnns. In: ICJB, IEEE (2017)》,在

encoder

部分,堆疊了10個卷積層和3個池化層。受到殘差網絡的激勵,我們采用了一個

捷徑連接配接

來連接配接來自于 p o o l 1 − 1 pool1-1 pool1−1、 p o o l 1 − 2 pool1-2 pool1−2、 p o o l 1 − 3 pool1-3 pool1−3的響應,然後将其送入 c o n v 1 − 10 conv1-10 conv1−10。這種操作幫助我們将不同尺度的特征相應傳遞到後面的階段并簡化訓練過程。通過三個以上的卷積層,來自于 c o n v 1 − 12 conv1-12 conv1−12的響應 F ∈ R 32 × 32 × 32 {\text{F}} \in {\mathbb{R}^{32 \times 32 \times 32}} F∈R32×32×32是欺騙模式的特征表示。響應幅度越大,輸入越具有欺騙感覺

編碼器

出來後,特征表示 F \text{F} F被喂入到解碼器來重建欺騙噪聲模式。 F \text{F} F直接被resize成256×256而沒有使用諸如反卷積等額外的調整尺寸的方法。然後,将調整後的 F \text{F} F通過幾個卷積層來重建噪聲模式 N \text{N} N。根據前面的方程,重建的真實圖像可由以下公式獲得: x ^ = x − N ( x ^ ) = I − N \widehat {\text{x}}=\text{x}-N(\widehat {\text{x}})=\text{I}-\text{N} x

=x−N(x

)=I−N

DS Net

中的每個卷積層都配有

ELU

BN

層。為了監督

DS Net

的訓練,我們設計了多重損失函數:包括與圖像品質有關的

DQ Net

VQ Net

損失,

0\1 map

損失以及噪聲屬性損失

DQ Net and VQ Net

盡管我們沒有

ground truth

來監督估計的欺騙噪聲模式,但是監督重建的真實圖像是可能的,這隐含的指導了噪聲估計。為了估計高品質的欺騙噪聲,重建的真實圖像應該在視覺上以及量化程度接近活體狀态。為此,在整個網絡結構中提出另外兩個網絡:品質判别網絡(

DQ Net

)以及視覺品質網絡(

VQ Net

)。

VQ Net

的目的是保證重建的活體人臉是逼真的。基于預訓練的人臉反欺騙網絡的判斷,

DQ Net

用于保證重建的人臉确實被認為是活體,詳細的網路結構如上圖所示

Discriminative Quality Net

我們遵循最先進的反欺騙網絡來建立

DQ Net

。它是一個全卷積網絡,包含三個

filter blocks

和三個附加卷積層。每個

block

包含三個卷積層和一個池化層,每個池化層之後的特征圖被重新調整大小并堆疊,以喂入到後面的卷積層。最後,對

DQ Net

進行監督,以估計輸入人臉的僞深度 D \text{D} D,其中真實人臉的僞深度是人臉形狀的深度,欺騙人臉的僞深度是零矩陣。我們采用

3D

人臉對齊算法來估計人臉形狀,并通過

Z-Buffering

渲染深度

DQ Net

通過預訓練來獲得真假人臉的語義知識。在

DS Net

訓練過程中,

DQ Net

的參數是固定的。由于重建圖像 I ^ \widehat {\text{I}} I

是真實圖像,相應的僞深度 D \text{D} D應該是面部形狀的深度。來自

DQ Net

的誤差的反向傳播指導

DS Net

估計應該從輸入圖像中減去的欺騙噪聲模式,

J D Q = ∥ CN N D Q ( I ^ ) − D ∥ 1 {J_{DQ}} = {\left\| {{\text{CN}}{{\text{N}}_{DQ}}(\widehat {\text{I}}) - {\text{D}}} \right\|_1} JDQ​=∥∥∥​CNNDQ​(I

)−D∥∥∥​1​

其中 CN N D Q {{\text{CN}}{{\text{N}}_{DQ}}} CNNDQ​是固定的網絡結構, D \text{D} D是人臉形狀的深度

Visual Quality Net

我們部署一個GAN來所估計活體圖像 I ^ \widehat {\text{I}} I

的視覺品質。給定真實的活體圖像 I live \text{I}_{\text{live}} Ilive​以及合成的活體圖像 I ^ \widehat {\text{I}} I

VQ Net

被訓練來區分 I live \text{I}_{\text{live}} Ilive​和 I ^ \widehat {\text{I}} I

。與此同時,

DS Net

試圖重建逼真的活體圖像,

VQ Net

則将它們歸類為非合成活體(真實活體)圖像。

VQ Net

包含6個卷積層和一個全連接配接層組成,輸出為一個

2D

向量,表示輸入圖像是真實活體還是合成活體的機率。在訓練期間的每次疊代中,

VQ Net

被評估為兩個批次,第一批次是固定

DS Net

并更新

VQ Net

J V Q t r a i n = − E I ∈ R log ⁡ ( CN N V Q ( I ) ) − E I ∈ S log ⁡ ( 1 − CN N V Q ( CN N D S ( I ) ) ) {J_{V{Q_{train}}}} = - {\mathbb{E}_{{\text{I}} \in \mathcal{R}}}\log ({\text{CN}}{{\text{N}}_{VQ}}({\text{I}})) - {\mathbb{E}_{{\text{I}} \in \mathcal{S}}}\log (1 - {\text{CN}}{{\text{N}}_{VQ}}({\text{CN}}{{\text{N}}_{DS}}({\text{I}}))) JVQtrain​​=−EI∈R​log(CNNVQ​(I))−EI∈S​log(1−CNNVQ​(CNNDS​(I)))

其中 R \mathcal{R} R和 S \mathcal{S} S分别是真實和合成活體圖像的集合。第二批則是固定

VQ Net

并直接更新

DS Net

J V Q t e s t = − E I ∈ S log ⁡ ( CN N V Q ( CN N D S ( I ) ) ) {J_{V{Q_{test}}}} = - {\mathbb{E}_{{\text{I}} \in \mathcal{S}}}\log ({\text{CN}}{{\text{N}}_{VQ}}({\text{CN}}{{\text{N}}_{DS}}({\text{I}}))) JVQtest​​=−EI∈S​log(CNNVQ​(CNNDS​(I)))

Loss functions

欺騙模組化的主要挑戰是缺乏欺騙噪聲模式的ground truth,我們可以設計幾個新的損失函數來限制收斂空間。首先,我們引入幅度損失(

magnitude loss

)來強制真實活體圖像的欺騙噪聲為 0 0 0。其次,

0\1

映射損失(

0\1 map loss

)被用來證明無處不在的欺騙噪音。最後,通過重複損失(

repetitive loss

)來鼓勵欺騙噪聲的重複性。我們将三個損失函數描述如下:

Magnitude Loss

真實活體圖像的欺騙噪聲為 0 0 0。幅度損失可以對估計噪聲施加限制。給定估計噪聲 N \text{N} N,真實活體圖像 I \text{I} I的重建活體圖像 I ^ = I − N \widehat {\text{I}}=\text{I}-\text{N} I

=I−N,可以得到,

J m = ∥ N ∥ 1 {J_m} = {\left\| {\text{N}} \right\|_1} Jm​=∥N∥1​

Zero\One Map Loss:為了學習編碼器中的差別特征,我們在

DS Net

中定義了一個子任務來為真實人臉估計

zero-map

以及欺騙人臉估計

one-map

。因為這是一個

per pixel

監督,同時也是對噪聲的一個無處不在的限制。此外,

0\1 map

使每個像素的感受野能夠覆寫一個局部區域,這有助于為此問題學習可泛化的特征。給定輸入圖像 I \text{I} I在編碼器中所提取的特征 F \text{F} F,可以得到,

J z = ∥ CN N 01 m a p ( F ; Θ ) − M ∥ 1 {J_z} = {\left\| {{\text{CN}}{{\text{N}}_{01map}}({\text{F}};\Theta ) - {\text{M}}} \right\|_1} Jz​=∥CNN01map​(F;Θ)−M∥1​

其中 M ∈ 0 32 × 32 \text{M}\in\text{0}^{32×32} M∈032×32或 M ∈ 1 32 × 32 \text{M}\in\text{1}^{32×32} M∈132×32是zero\one map标簽

Repetitive Loss

基于前面的讨論,我們假設欺騙噪聲模式是重複的,因為它是由重複的欺騙媒體産生的。為了鼓勵重複性,我們将估計的噪聲 N \text{N} N轉換到傅立葉域,并計算高頻帶中的最大值。高峰的存在表明了重複的模式。我們希望最大化欺騙圖像的峰值,最小化真實活體圖像的峰值,是以我們設計以下損失函數:

J r = { − max ⁡ ( H ( F ( N ) , k ) ) , I ∈ S p o o f ∥ max ⁡ ( H ( F ( N ) , k ) ) ∥ 1 , I ∈ L i v e {J_r}=\begin{cases} - \max (H(\mathcal{F}({\text{N}}),k)),{\text{I}} \in Spoof\\ {\left\| {\max (H(\mathcal{F}({\text{N}}),k))} \right\|_1},{\text{I}} \in Live\\ \end{cases} Jr​={−max(H(F(N),k)),I∈Spoof∥max(H(F(N),k))∥1​,I∈Live​

其中 F \mathcal{F} F是傅裡葉算子, H H H是掩蔽圖像低頻域的算子,即将移位的

2D

傅立葉響應中心的 k × k k × k k×k區域設定為零

最後,我們訓練中的總損失函數是上述損失函數和圖像品質監督的權重和,

J T = J z + λ 1 J m + λ 2 J r + λ 3 J D Q + λ 4 J V Q t e s t {J_T} = {J_z} + {\lambda _1}{J_m} + {\lambda _2}{J_r} + {\lambda _3}{J_{DQ}} + {\lambda _4}{J_{V{Q_{test}}}} JT​=Jz​+λ1​Jm​+λ2​Jr​+λ3​JDQ​+λ4​JVQtest​​

其中 λ 1 \lambda _1 λ1​、 λ 2 \lambda _2 λ2​、 λ 3 \lambda _3 λ3​、 λ 4 \lambda _4 λ4​表示權重。在訓練過程中,我們在優化方程 J T J_T JT​和 J V Q t r a i n J_{{VQ}_{train}} JVQtrain​​之間交替

Experimental Results

Experimental Setup

Databases

此次工作在三個人臉反欺騙資料集上進行評估,其中包括列印和重播攻擊:

Oulu-NPU

CASIA-MFSD

Replay-Attack

Oulu-NPU

是一個高分辨率資料庫且考慮到許多現實世界的變化。

Oulu-NPU

還包括4個測試協定:

▪協定 1 1 1評估光照變化,

▪協定 2 2 2檢查不同欺騙媒體的影響,

▪協定 3 3 3檢查不同攝像裝置的效果,

▪協定 4 4 4包含上述所有挑戰,接近交叉測試的場景

CASIA-MFSD

包含分辨率為 640 × 480 640×480 640×480和 1280 × 720 1280×720 1280×720的視訊。

Replay-Attack

包括 320 × 240 320×240 320×240的視訊。這兩個資料庫經常用于交叉測試

Parameter setting

作者使用 T e n s o r F l o w TensorFlow TensorFlow實作本文方法。其中

batch size=6

learning rate = 3e-5

。在重複損失中設定

k = 64

, λ 1 λ1 λ1到 λ 4 λ4 λ4分别設定為 3 3 3、 0.005 0.005 0.005、 0.1 0.1 0.1和 0.016 0.016 0.016。

DQ Net

是單獨訓練的,并且在

DS Net

VQ Net

的更新期間保持固定,但是所有子網絡在每個協定中使用相同和各自的資料進行訓練

Evaluation metrics

與以前的方法相比,我們使用

Attack Presentation Classification Error Rate

( A P C E R APCER APCER)、

Bona Fide Presentation Classification Error Rate

( B P C E R BPCER BPCER)和 A C E R = ( A P C E R + B P C E R ) / 2 ACER = (APCER + BPCER)/2 ACER=(APCER+BPCER)/2對

Oulu-NPU

進行内部測試,使用

Half Total Error Rate

( H T E R HTER HTER) 、 F A R FAR FAR和 F R R FRR FRR總和的一半在

CASIA-MFSD

Replay-Attack

之間進行交叉測試

Ablation Study

使用

Oulu-NPU

協定 1 1 1,我們對分數融合的效果、每個損失函數的重要性以及圖像分辨率和模糊度的影響進行了三項研究。

Different fusion methods

在所提出的網絡結構中,三個輸出可用于分類:

0\1 map

的範數、欺騙噪聲模式或深度圖映射。由于我們的學習具有區分性,我們可以簡單地使用像

L-1範數

這樣的基本分類器。注意到更進階的分類器是适用的并且可能會導緻更好的性能。下表顯示了每個輸出的性能以及它們最大值和平均值的融合。結果表明,欺騙噪聲和深度圖的融合效果最好。然而,添加

0\1 map

分數并不能提高準确性,因為它包含與欺騙噪聲相同的資訊

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The accuracy of different outputs of the proposed architecture and their fusions.

是以,在接下來的實驗中,我們通過欺騙噪聲 N \text{N} N和深度圖 D ^ \widehat {\text{D}} D

的平均融合來報告性能,即 s c o r e = ( ∥ N ∥ 1 + ∥ D ^ ∥ 1 ) / 2 score = ({\left\| {\text{N}} \right\|_1} + {\left\| {\widehat {\text{D}}} \right\|_1})/2 score=(∥N∥1​+∥∥∥​D

∥∥∥​1​)/2

Advantage of each loss function

在我們所提出的結構中有三個主要的損失函數。為了顯示每個損失函數的效果,我們對每個損失訓練一個網絡并逐一排除。通過禁用

magnitude loss

0\1 map loss

repetitive loss

,我們分别獲得了 5.24 5.24 5.24、 2.34 2.34 2.34和 1.50 1.50 1.50的 A C E R s ACERs ACERs。為了進一步驗證

repetitive loss

,我們在高分辨率圖像上進行了一項實驗,将網絡輸入更改為原始 1080 P 1080P 1080P圖像的臉頰區域。具有

repetitive loss

的網絡其 A C E R ACER ACER是 2.92 2.92 2.92,不具有

repetitive loss

的網絡無法收斂

Resolution and blurriness

如消融研究的

repetitive loss

所示,圖像品質對于實作高精度至關重要。在低分辨率或運動模糊的圖像中可能檢測不到欺騙噪聲模式。不同圖像分辨率和模糊度的測試結果如表所示

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

ACER of the proposed method with different image resolutions and blurriness. To create blurry images, we apply Gaussian filters with different kernel sizes to the input images.

這些結果驗證了欺騙噪聲模式對低分辨率或模糊圖像的辨識能力較低,因為輸入圖像的高頻部分包含大部分欺騙噪聲模式

Experimental Comparison

為了展示我們所提出的方法的性能,我們給出了我們在

Oulu-NPU

的内部測試和

CASIA

Replay-Attack

的交叉測試中的準确性

Intra Testing

我們比較了

Oulu-NPU

所有4個協定的内部測試性能。下表顯示了本文方法與之前 18 18 18種方法中最好的 3 3 3種方法的比較。我們提出的方法在所有協定上都取得了令人滿意的結果。具體來說,我們在最具挑戰性的協定 4 4 4(類似于交叉測試)中大大超過了以前的技術水準

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The intra testing results on 4 protocols of Oulu-NPU. Cross Testing

我們在

CASIA-MFSD

Replay-Attack

之間進行交叉測試。如下表所示。5、我們的方法從

CASIA-MFSD

Replay-Attack

的交叉測試中取得了競争性能。然而,與從

Replay-Attack

CASIA-MFSD

的最好結果相比,我們實作了更差的 H T E R HTER HTER。我們假設原因是

CASIA-MFSD

的圖像比重播攻擊的分辨率高得多。這表明,用高分辨率資料訓練的模型可以很好地在低分辨率測試資料上泛化,反過來卻不成立。這是該方法的一個局限性,值得進一步研究

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The HTER of different methods for the cross testing between the CASIA-MFSD and the Replay-Attack databases. We mark the top-2 performances in bold.

Qualitative Experiments

Spoof medium classification

測試圖像所估計的欺騙噪聲模式可用于将它們聚類成不同的組,并且每組代表一種欺騙媒體。為了可視化結果,我們使用

t-SNE

進行降維。

t-SNE

通過保持最佳

KL

發散距離将噪聲 N ∈ R 256 × 256 × 6 \text{N}\in\mathbb{R}^{256×256×6} N∈R256×256×6投影到二維平面,下圖顯示了

Oulu-NPU

協定 1 1 1上測試視訊的分布。與我們的噪聲假設一緻,左圖顯示活體視訊的噪聲聚類良好,欺騙視訊的噪聲與主題相關。為了獲得更好的可視化效果,我們利用高通濾波器提取噪聲模式的高頻資訊進行降維。右圖顯示,高頻部分具有更多與主題無關的欺騙類型資訊并且可用于欺騙媒體的分類

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The 2D visualization of the estimated spoof noise for test videos on Oulu-NPU Protocol 1. Left: the estimated noise, Right: the high-frequency band of the estimated noise, Color code used: black=live, green=printer1, blue=printer2, magenta=display1, red=display2.

為了進一步顯示估計欺騙噪聲的辨識能力,我們将協定1的測試集劃分為訓練部分和測試部分,并訓練用于欺騙媒介分類的SVM分類器。我們訓練了兩個模型,一個三級分類器(

live

print

display

)和一個五級分類器(

live

print1

print2

display1

display2

),它們分别達到 82.0 % 82.0\% 82.0%和 54.3 % 54.3\% 54.3%的分類精度,如下表所示

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The confusion matrices of spoof mediums classification based on spoof noise pattern.

五級模型的大部分分類錯誤都在同一個欺騙媒介内。這個結果值得注意,因為在學習欺騙噪聲模型的過程中沒有提供欺騙媒體類型的标簽。然而,估計的噪聲實際上攜帶了關于媒體類型的可觀資訊;是以,我們可以觀察到欺騙媒體的合理分類結果。這表明估計的噪聲包含欺騙媒介資訊,并且實際上我們正朝着估計出存在于每個欺騙圖像中的可信賴欺騙噪聲的方向前進。未來,如果欺騙媒體分類的性能有所提高,将會給驗證等應用帶來新的沖擊

Successful and failure cases

我們在下面的兩張圖中顯示了幾個成功和失敗的例子。第一張圖顯示出估計的欺騙噪聲在同種媒體中是相似的,不同媒體中則不同。我們懷疑前四列中的淡黃色是由于紙張攻擊中更強的顔色失真引起的。第五行顯示真實活體圖像的估計噪聲幾乎為零。對于失敗的案例,我們隻有少數的假陽性(

false positive

)案例。失敗是由于不希望的噪聲估計,這将激勵我們進一步研究

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The visualization of input images, estimated spoof noises and estimated live images for test videos of Protocol 1 of Oulu-NPU database. The first four columns in the first row are paper attacks and the second four are the replay attacks. For a better visualization, we magnify the noise by 5 times and add the value with 128, to show both positive and negative noise.

活體檢測論文研讀五:Face De-Spoofing: Anti-Spoofing via Noise Modeling論文簡介論文研讀資源連結

The failure cases for converting the spoof images to the live ones.

Conclusions

本文介紹了一種通過反變換将欺騙面孔分解為活體面孔和欺騙的噪聲模式來解決面部反欺騙的新視角。提出了一種具有多個适當監督的新穎 CNN \text{CNN} CNN結構。通過設計損失函數來鼓勵欺騙圖像的模式無處不在且重複,而實時圖像的噪聲應為零。通過可視化欺騙噪聲模式将有助于更深入地了解每種欺騙媒體所增加的噪聲。我們在多個廣泛使用的面部反欺騙資料庫上評估了該方法

Acknowledgment This research is based upon work supported by the Office of the Director of National Intelligence (ODNI), Intelligence Advanced Research Projects Activity (IARPA), via IARPA R&D Contract No. 2017-17020200004. The views and conclusions contained herein are those of the authors and should not be interpreted as necessarily representing the official policies or endorsements, either expressed or implied, of the ODNI, IARPA, or the U.S. Government. The U.S.Government is authorized to reproduce and distribute reprints for Governmental purposes notwithstanding any copyright annotation thereon.

資源連結

Computer Vision Lab

ECCV 2018-Face De-Spoofing Code

繼續閱讀