天天看點

人臉表情識别綜述 - leivo

一、人臉表情識别技術目前主要的應用領域包括人機互動、安全、機器人制造、醫療、通信和汽車領域等

二、1971年,心理學家Ekman與Friesen的研究最早提出人類有六種主要情感,每種情感以唯一的表情來反......

 一、人臉表情識别技術目前主要的應用領域包括人機互動、安全、機器人制造、醫療、通信和汽車領域等

 二、1971年,心理學家Ekman與Friesen的研究最早提出人類有六種主要情感,每種情感以唯一的表情來反映人的一種獨特的心理活動。這六種情感被稱為基本情感,由憤怒(anger)、高興(happiness)、悲傷 (sadness)、驚訝(surprise)、厭惡(disgust)和恐懼(fear)組成

 人臉面部表情運動的描述方法---人臉運動編碼系統FACS (Facial Action Coding System),根據面部肌肉的類型和運動特征定義了基本形變單元AU(Action Unit),人臉面部的各種表情最終能分解對應到各個AU上來,分析表情特征資訊,就是分析面部AU的變化情況

 FACS有兩個主要弱點:1.運動單元是純粹的局部化的空間模闆;2.沒有時間描述資訊,隻是一個啟發式資訊

三、人臉表情識别的過程和方法

1、表情庫的建立:目前,研究中比較常用的表情庫主要有:美國CMU機器人研究所和心理學系共同建立的Cohn-Kanade AU-Coded Facial Expression Image Database(簡稱CKACFEID)人臉表情資料庫;日本ATR建立的日本女性表情資料庫(JAFFE),它是研究亞洲人表情的重要測試庫

2、表情識别:

(1)圖像擷取:通過攝像頭等圖像捕捉工具擷取靜态圖像或動态圖像序列。  

(2)圖像預處理:圖像的大小和灰階的歸一化,頭部姿态的矯正,圖像分割等。

è目的:改善圖像品質,消除噪聲,統一圖像灰階值及尺寸,為後序特征提取和分類識别打好基礎

主要工作è人臉表情識别子區域的分割以及表情圖像的歸一化處理(尺度歸一和灰階歸一) 

(3)特征提取:将點陣轉化成更進階别圖像表述—如形狀、運動、顔色、紋理、空間結構等, 在盡可能保證穩定性和識别率的前提下,對龐大的圖像資料進行降維處理。

è特征提取的主要方法有:提取幾何特征、統計特征、頻率域特征和運動特征等

1)采用幾何特征進行特征提取主要是對人臉表情的顯著特征,如眼睛、眉毛、嘴巴等的位置變化進行定位、測量,确定其大小、距離、形狀及互相比例等特征,進行表情識别

優點:減少了輸入資料量

缺點:丢失了一些重要的識别和分類資訊,結果的精确性不高 

2)基于整體統計特征的方法主要強調盡可能多的保留原始人臉表情圖像中的資訊,并允許分類器發現表情圖像中相關特征,通過對整幅人臉表情圖像進行變換,擷取特征進行識别。

主要方法:PCA和ICA(獨立主元分析)

PCAè用一個正交維數空間來說明資料變化的主要方向 優點:具有較好的可重建性 缺點:可分性較差

ICAè可以擷取資料的獨立成份,具有很好的可分性

基于圖像整體統計特征的提取方法缺點:外來因素的幹擾(光照、角度、複雜背景等)将導緻識别率下降

3)基于頻率域特征提取: 是将圖像從空間域轉換到頻率域提取其特征(較低層次的特征)

 主要方法:Gabor小波變換

 小波變換能夠通過定義不同的核頻率、帶寬和方向對圖像進行多分辨率分析,能有效提取不同方向不同細節程度的圖像特征并相對穩定,但作為低層次的特征,不易直接用于比對和識别,常與ANN 或SVM 分類器結合使用,提高表情識别的準确率。 

4)基于運動特征的提取:提取動态圖像序列的運動特征(今後研究的重點)

 主要方法:光流法

 光流是指亮度模式引起的表觀運動,是景物中可見點的三維速度矢量在成像平面上的投影,它表示景物表面上的點在圖像中位置的瞬時變化,同時光流場攜帶了有關運動和結構的豐富資訊

 光流模型是處理運動圖像的有效方法,其基本思想是将運動圖像函數f (x, y,t)作為基本函數,根據圖像強度守恒原理建立光流限制方程,通過求解限制方程,計算運動參數。

 優點:反映了表情變化的實質,受光照不均性影響較小

 缺點:計算量大 

(4)分類判别:包括設計和分類決策

在表情識别的分類器設計和選擇階段,主要有以下方法:用線性分類器、神經網絡分類器、支援向量機、隐馬爾可夫模型等分類識别方法

1)   線性分類器:假設不同類别的模式空間線性可分,引起可分的主要原因是不同表情之間的差異。

2) 神經網絡分類器:人工神經網絡(Artificial Neural Network,ANN)是一種模拟人腦神經元細胞的網絡結構,它是由大量簡單的基本元件—神經元,互相連接配接成的自适應非線性動态系統。将人臉特征的坐标位置和其相應的灰階值作為神經網絡的輸入,ANN可以提供很難想象的複雜的類間分界面。

   神經網絡分類器主要有:多層感覺器、BP網、RBF網

  缺點:需要大量的訓練樣本和訓練時間,不能滿足實時處理要求

3) 支援向量機(SVM)分類算法:泛化能力很強、解決小樣本、非線性及高維模式識别問題方面表、新的研究熱點

基本思想:對于非線性可分樣本,首先通過非線性變換将輸入空間變換到一個高維空間,然後在這個新空間中求取最優線性分界面。這種非線性變換通過定義适當的内積函數實作,常用的三種内積函數為:多項式内積函數、徑向基内積函數、Sigmoid内積函數

4) 隐馬爾可夫模型(Hidden Markov Models, HMM):特點:統計模型、健壯的數學結構,适用于動态過程時間序列模組化,具有強大的模式分類能力,理論上可處理任意長度的時序,應用範圍非常廣泛。

優點:運用HMM方法能夠比較精确的描繪表情的變化本質和動态性能

5) 其他方法:

基于人臉實體模型的識别方法,将人臉圖像模組化為可變形的3D網格表面,把空間和灰階放在一個3D空間中同時考慮。

基于模型圖像編碼的方法是使用遺傳算法來編碼、識别與合成各種不同的表情

四、研究展望

(1)魯棒性有待提高:

外界因素(主要是頭部偏轉及光線變化的幹擾)

采用多攝像頭技術、色彩補償技術予以解決,有一定效果,但并不理想

(2)表情識别計算量有待降低è確定實時性的要求

(3)加強多資訊技術的融合

     面部表情不是唯一的情感表現方式,綜合語音語調、脈搏、體溫等多方面資訊來更準确地推測人的内心情感,将是表情識别技術需要考慮的問題