今天給大家帶來的是一篇簡單的目辨別别算法綜述性文章,希望有興趣的您繼續閱讀下去,謝謝!
視覺目辨別别,又稱關于視覺圖像的模式識别, 旨在利用圖像處理與模式識别領域的理論和方法,确定圖像中是否存在感興趣的目标, 如果存在則為目标賦予合理的解釋,并且還要确定其位置。計算機視覺理論的奠基者,英國神經生理學家Marr認為,視覺要解決的問題可歸結為“What is Where”,即“ 什麼東西在什麼地方”。是以計算機視覺的研究中,目辨別别是最基本的研究問題之一。其研究主要包括基于視訊圖像的目辨別别和基于靜态圖像的目辨別别,本文這次主要來讨論基于靜态圖像的目辨別别。
近年來,目辨別别技術受到越來越多的重視,在很多領域得到極大發展和應用。包括安防領域的人臉識别、行人檢測、智能視訊分析等;交通領域的交通場景目辨別别、車輛計數、逆行檢測、車牌檢測和識别;以及網際網路領域的基于内容的圖像檢索、相冊自動歸類等。是以,圖像目辨別别具有重要的研究意義,且其研究成果具有非常廣闊的應用前景
目前,國内外有很多針對目辨別别的研究進展分析,但大多是針對空間目标、空中目标的雷達目辨別别及機場跑道目标的遙感目辨別别,針對地面圖像目辨別别的綜述文獻還較少。本文針對圖像目辨別别的國際常用有效算法進行分析, 并對其發展趨勢進行展望。
1 目辨別别系統
目辨別别可了解為計算機對圖像特征分析,然後對目标概念了解過程。目辨別别系統主要分為如圖1所示幾個部分。
輸入圖像可能存在視角變化、光照變化和遮擋等問題,使目辨別别具有挑戰性。為了比較不同算法的性能,通常使用共同标準資料庫,如目前目辨別别研究主要使用的Caltech系列資料庫、PASCAL VOC資料庫和ImageNet資料庫。
預處理的目的是在最小限度影響目标本質特征條件下,通過對圖像的顔色、亮度和大小等表觀特征進行處理,以便于提取正确的目标特征,減少後續識别算法的複雜度并提高效率。主要有圖像增強、灰階化、二值化、歸一化等數字圖像處理操作。
特征生成指用數值形式将能夠充分表示的特征表達出來,目的是盡量擷取圖像真實特征,濾除虛假特征。特征生成影響着識别算法的準确性和實時性, 需要解決提取什麼特征這一問題,主要有底層特征、 中層特征和高層特征三種方案。
模型建構的主要目的是通過提取相同類别目标的共同之處、區分異類别目标的不同之處,對特征及特征間的空間結構進行高效處理、存儲和利用,是設計整個識别系統的關鍵所在。模型建構按照統計結構可以分為生成模型(Generative Model)和判别模型(Discriminative Model)。
模型訓練是在目标特征和模型确定後,在指定訓練圖像集進行學習訓練、将得到的目标模型參數作為目辨別别的重要依據。模型訓練按訓練方法的不同可以分為有監督、無監督和半監督三種訓練方式,按分類器的不同主要有支援向量機SVM、KNN、 神經網絡 NNs(Neural Networks) 和随機森林等。
目标檢測是利用樣本集訓練出的模型與測試圖像提取出的模型進行比對,擷取測試圖像的目标種類及位置資訊,是整個識别系統的最後步驟。目标搜尋則是其中關鍵,直接影響識别系統的性能。目前,主要的目标搜尋方法有基于滑動視窗的搜尋方法和基于圖像分割的搜尋方法。
在目辨別别系統基本架構下,采用不同模型衍生出不同的識别算法,通常使用準确性、實時性和魯棒性對不同算法進行評價。準确性指目辨別别算法對目标物體識别檢測的準确率,衡量算法性能,通常使用平均正确率 AP(Average Precision)進行評估,實時性指目辨別别算法從一幅圖像中識别出目标的所需時間,決定算法應用前景,魯棒性通常表現為目辨別别算法所選用分類器對特性或參數擾動的不敏感性,其主要影響因素為訓練集樣本。
2 典型識别算法及其進展
2.1 詞袋模型及其進展
詞袋 BOW(Bag-Of-Words) 模型, 也稱為特征袋 BOF(Bag-Of-Feature) 模型,起初隻應用于文本分析,通過對文本中的單詞頻率模組化來描述文檔。Csurka等人将BOW 首次引入計算機視覺後,在目辨別别、場景分析等領域得到廣泛應用。
BOW模型通常利用SIFT 等底層特征, 對特征點或特征區域進行描述, 提取得到圖像特征矢量。然後通過聚類、求質心等方法矢量量化所有訓練樣本庫圖像的特征矢量,得到的質心即為BOW中的詞,進而形成詞袋或詞典。接着借助統計直方圖方法分析描述目标樣本的詞的特征矢量頻率,則直方圖資訊為訓練分類器時的輸入。最後,對測試圖像采取相同的方法進行特征提取,求出與特征矢量相對應的詞在圖像目标中出現頻率, 也使用直方圖進行描述, 并将其輸入到已訓練的分類器中, 即可得到最終的識别結果。
BOW模型由于忽略了目标的空間位置、丢失目标的幾何結構等資訊,是以影響其目标的描述能力,但文獻中卻巧妙将其利用到人體識别中。該文提出因為人的姿态變化和遮擋的位置資訊會使特征向量不一緻,如果直接忽略位置資訊,則即使不同位置的人體姿态變化也可以用一緻的特征表示,人體遮擋後可見的部分也可構造特征表示,是以獲得較好的處理目标形變和部分遮擋能力。
由于BOW模型簡單,對噪聲影響不敏感且不需要分割圖像等優點,使基于詞袋架構結構的識别算法得到研究人員的廣泛關注,并在其架構基礎上提出稀疏編碼、混合生成判别模型等新的方法。其中空間金字塔比對模型,在第n層,粗糙的将圖像劃分成4^n個子圖像,然後對每個子圖像均建立BOW模型并串聯起來,結果作為第n層圖像表示空間金字塔模型與稀疏編碼方法相結合,将BOW模型的發展推進一個新的階段,成為視覺目辨別别最常用算法之一。
2.2 梯度方向直方圖模型及其進展
梯度方向直方圖HOG模型是2005年CVPR會議上,法國國家計算機科學及自動控制研究所的Dalal和Tringgs等人提出的一種解決人體目标檢測的圖像描述子。該方法使用HOG特征來表達人體,提取人體的外形資訊和運動資訊,形成豐富的特征集。HOG 的主要思想為在一副圖像中,局部目标的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。
HOG的生成概括為先将圖像分成小的連通區域cell, 然後采集cell中各像素點的梯度的或邊緣的方向直方圖,再将這些直方圖組合起來則構成特征描述器。其具體流程如圖2 所示。采用Gamma校正法對輸入圖像進行顔色空間歸一化,可以提高檢測器對光照和陰影影響的魯棒性。計算圖像每個像素大小和方向
的梯度,主要是為了捕獲輪廓資訊,同時進一步弱化光照變換的幹擾。然後将圖像劃分成若幹細胞單元格,并以細胞為機關統計圖像梯度方向直方圖,這樣能夠保持圖像中目标的姿勢和外觀的弱敏感性。為了能夠進一步地對光照、陰影和邊緣進行壓縮,将各個細胞單元格組合形成大的塊,以此為機關進行對比度歸一化,得到的塊向量即為HOG描述符。 最 後 将 檢 測 視窗中所 有 重 疊 的 塊 進行HOG特征的收集,并将它們結合成最終的特征向量供分類使用。
Dalal等人提出的基于HOG行人檢測算法選用判别模型, 采用監督學習方式訓練SVM分類器,在目标檢測階段使用滑動視窗法進行目标搜尋。HOG與SVM相結合,因其具有關照不變性、模型可視性和相對較高的識别精度,在目辨別别中得到廣泛應用。但其也存在實時性差、很難處理遮擋 角度變換和旋轉問題
等缺點。
針對這些問題, 研究人員就行了大量努力。局部二值模式LBP與HOG結合的識别算法,通過對底層HOG特征進行改進,比較有效的解決了遮擋問題,使目辨別别準确性顯著提高;在HOG特征提取階段,使用三維球面坐标系替換二維直角坐标系,建立的HOG描述符可以取得較好的旋轉不變性,但仍未解決視角變換問題。為此, 有文獻使用多角度SIFT算法,并通過建構經緯度模型進
行仿射特征提取,成功解決了視覺變換問題, 但多角度SIFT算法的引進帶來巨大運算量,降低了識别的實時性。
2.3 可變部件模型及其進展
Pedro Felzenszwalb教授為了在特征描 述 階 段 定 義 物 體 形 變,提 出 了 可 變 部 件 模 型DPM。DPM可以了解為HOG的擴充,其思路大體與HOG一緻———先計算梯度方向直方圖,然後用SVM訓練得到物體的梯度模型,用其對圖像進行識别。
DPM使用星型結構的部件模型。此模型由一個根濾波器、一系列部件濾波器以及相應的可變形模型構成。根濾波器包含目标的整體資訊,而部件濾波器采用高分辨率的細節模組化。星型模型在圖像特定位置和尺度的得分, 等于根濾波器的得分加上各個部件的得分的總和。每個部件的得分等于此部件在所有空間位置的得分的最大值,而部件在某位置的得分等于部件濾波器在此位置的得分減去此位置的變形代價。變形代價衡量了部件偏離其理想位置的程度,即部件偏離與根濾波器的最優相對位置程度。通過定位每個部件和定量部件之間的相對位置關系,DPM 模型容許目标出現較大程度的外觀形變。DPM 模型采用多元件結構,一類目标模型可以同時包含正面、斜面和側面等元件,多元件結構克服了視覺變換的挑戰。
Pedro提出的基于 DPM 識别算法,使用判别分類器完成目辨別别,采用半監督學習訓練隐變量支援向量機 LSVM,即目标位置作為隐變量,将其放入SVM 的目标函數進行優化,以判别訓練方法擷取物體的最優位置,在目标檢測階段使用滑動視窗法進行目标搜尋。因DPM模型不僅具有HOG的關照不變性、 模型可視性等優點,還能很好的處理遮擋、非剛性可變和視角變換問題, 大大提高了識别正确率,使 DPM 模型成為這幾年最為流行的圖像目标檢測算法。雖然 DPM 算法相對其他算法具有較高的準确性,但研究人員一直緻力于得到更高的識别性能。有文獻在DPM 模型基礎上同時引入上下 文 學 習 和 空 間 混 合 建 模,并 提 出 一 種 數 據 分 解 算 法,較 大 地 提 高 了AP值, 成為PASCAL 2011的目辨別别冠軍。但基于DPM 識别算法也具有實時性差、不具有旋轉不變性等缺點,為了提高識别實時性, 研究人員進行了大量努力。
Pedro文獻中采用級聯思想加速目标搜尋,在保持準确率的同時使識别速度提高了十倍, 對PASCAL 2007的平均識别達到一秒以内。楊揚則采取分割位置提示加速目标搜尋,即先對測試圖像進行快速分割,再對分割出的各個部分進行識别檢測。
2.4 人工神經網絡模型及其進展
科研人員通過對人類大腦的神經網絡構成以及工作原理探索,建立了基于視覺系統結構的人工神經網絡 ANN模型。在 ANN 識别系統中, 研究人員選擇Gabor濾波器對圖像進行預處理。為了擷取圖像角落和輪廓等基礎特征, 圖像塊被選取為特征輸入,然後由多層濾波器構成的神經網絡提取出目标顯著性特征。在訓練過程中,ANN 使用分層無監督學習方法:即通過無監督訓練初始化第一層神經元,将其輸出資料作為下一層神經元輸入,并使用相同方法進行訓練。為了擷取更好的訓練效果,通常在經過設計的無監督訓練神經網絡層後, 将其輸出通過一次有監督誤差方向傳播 BP算法訓練。
在目辨別别領域最典型的 ANN 是卷積神經網絡 CNN,CNN 主要包
括卷積層和彙聚層。其中卷積層是核心,将整個輸入圖像與大小固定的濾波器進行卷積,然後卷積層得到的資訊傳遞到彙聚層,通過對特征圖中Patch的最大值、平均值提取,對資料進行降采樣。CNN 通過利用其各層網絡之間的位置共享,可以降低計算參數的數量,同時通過挖取資料的空間相關性,使其能夠自動提取圖像的相關特性。
在很多 ANN 設計中采用了BP算法,通過将實際輸出與标注不相符的誤差輸出向輸入層方向傳播,修正各個卷積層單元的權重。深度神經網絡的應用,大大提高了圖像目辨別别的平均正确率,成為目辨別别領域的熱點。基于 ANN 的目辨別别算法具有精度高、有一定不變性等優點,但也具有算法結構複雜、 實時性差等缺點。
為了加速神經網絡分類器的搜尋速度, 有文獻将每個圖像分割成小的子圖像,然後對每個子圖像使用快速神經網絡單獨測試。有文獻創新地将 DPM 模型與深度學 習CNN融 合, 使AP值 提 高 近 十 個 百 分點,大幅度提高了識别準确性。然而,深度學習的引進,提高準确性的同時也降低了實時性。Girshick等人為此繼續進行研究,使用已訓練的特征提取器替換 DPM 模型中的标準圖像特征, 提高了 DPM 模型與CNN 結合識别算法的實時性。
3 識别算法發展方向
視覺目辨別别技術的理論和算法在大量研究人員的不懈努力下取得了一系列進展。以BOW、HOG和DPM 等模型理論為核心, 衍生出多種算法。在第2節分析的典型識别算法及其發展基礎上, 本文接下來讨論目辨別别算法的發展方向。
視覺目辨別别技術得到更廣泛的應用,需滿足準确、高效和普适三個要求。與之相對應, 即是識别算法的準确性、實時性和魯棒性,是以識别算法的發展将展現在這三個方面。
3.1 提高目辨別别準确性
目前,以深度神經網絡為代表的識别算法在目辨別别準确性上達到了較高的水準。但對于戰場車輛識别等準确性要求高的應用環境,其準确性仍需提高。對此,有以下兩種準确性提高思路。
( 1)融合現有模型。分析目前主流算法模型,沒有一種現有的算法能同時較好地克服部分遮擋、視角變換、目标形變、場景複雜和圖像旋轉等挑戰, 均會出現漏檢和誤檢等情況。通過提取出其各自所擅長難點的關鍵,然後進行模型融合優勢互補,使新模型能夠克服更多的挑戰, 進而提高目辨別别準确性。例如, DPM模型不具有旋轉不變性,可以考慮融入球坐标系 HOG 描述符。同時, 其使用多元件克服視角變換、 彈簧模型克服非剛性形變等優點也可以考慮融入神經網絡模型等。
( 2)研究深度學習。深度學習模仿人腦對圖像目标的提取理論, 是目辨別别領域的新星。但其存在的模型解釋性差, 缺少結構限制等問題, 影響目辨別别的準确性。深度學習在視覺皮層和函數論等方面有其理論依據, 但對中間的特征變換缺乏自然解釋。研究其變量之間因果關系, 對其結構進行合理限制, 無疑對深度學習的識别準确性提高有促進作用。
3.2 增強識别算法實時性
随着攝像器材的更新,高清圖像時代的到來使目辨別别所需時間成倍增長,且識别算法複雜,檢測目标耗時較長,難以滿足視訊監控等一系列應用的要求。對此, 有以下三種實時性增強思路。
( 1)優化目标搜尋政策。現在識别算法為了追求高的準确性, 主要采用簡單且漏檢機率小的滑動視窗法搜尋目标, 但其計算量大、 效率低、 實時性差。是以, 通過删除備援計算, 降低計算量等方法優化目标搜尋政策, 可以提高識别算法實時性。例如使用級聯等思想優化滑動視窗搜尋政策。
( 2)減小目辨別别區域。識别目标的時間不僅與檢測算法相關, 還與圖像大小有關, 即搜尋視窗的數目很大程度影響識别系統的實時性。然而檢測一幅圖像, 其目标區域通常隻占整幅圖像的一部分, 探測器在背景部分浪費大量時間。是以先對圖像感興趣區域快速提取, 再對減小後的區域進行識别, 可以縮短目标搜尋時間, 增強實時性。例如可以根據Cheng等人提出的似物性檢測理論先進行似物性檢測, 後進行目辨別别。
( 3)應用多線程并行處理。随着硬體技術的發展, 多線程計算機已經進入人們生活, 但是大多識别算法程式并沒充分利用這一資源。在特征提取、 目标搜尋等階段, 通過設計應用并行程式, 可以數倍提高識别速率, 提高實時性。
3.3 改善分類器魯棒性
現存識别算法普遍存在分類器魯棒性較差問題, 而其主要影響因素為訓練樣本集的大小。對此, 有分類器訓練優化和分類器回報學習兩種魯棒性改善思路。
( 1)分類器訓練優化。由于識别算法的計算強度高,學習效率低限制了訓練樣本集的大小。對此, 通過降低分類器計算強度,可以提高初始訓練樣本集大小,進而來擷取魯棒性和準确性的提升。例如有文獻通過對濾波器的修改,快速舍棄無關特征,減少後期運輸量,加快訓練速度,進而獲得好的檢測性能。
( 2)分類器回報學習。目前的模型訓練大多需要标記樣本, 而樣本的人工标記花費較大, 使得大規模訓練樣本集難以得到。于是, 從對标記樣本進行擴充思路, 可以考慮在目辨別别過程中對分類器進行回報學習。即将目辨別别結果作為輸入對分類器進行訓練, 分類器邊檢測邊學習, 突破訓練樣本數量少、 場景單一等缺點, 改善分類器的魯棒性。