天天看點

行人檢測1(總結) 行人檢測1(總結)

行人檢測1(總結)

最近一直在看行人檢測的論文,對目前的行人檢測做大概的介紹。

行人檢測具有極其廣泛的應用:智能輔助駕駛,智能監控,行人分析以及智能機器人等領域。從2005年以來行人檢測進入了一個快速的發展階段,但是也存在很多問題還有待解決,個人覺得主要還是在性能和速度方面還不能達到一個權衡。

1.行人檢測的現狀(大概可以分為兩類)

(1).基于背景模組化:利用背景模組化方法,提取出前景運動的目标,在目标區域内進行特征提取,然後利用分類器進行分類,判斷是否包含行人;

背景模組化目前主要存在的問題:(背景模組化的方法總結可以參考我的前一篇博文介紹)(前景目标檢測總結)

  • 必須适應環境的變化(比如光照的變化造成圖像色度的變化);
  • 相機抖動引起畫面的抖動(比如手持相機拍照時候的移動);
  • 圖像中密集出現的物體(比如樹葉或樹幹等密集出現的物體,要正确的檢測出來);
  • 必須能夠正确的檢測出背景物體的改變(比如新停下的車必須及時的歸為背景物體,而有靜止開始移動的物體也需要及時的檢測出來)。
  • 物體檢測中往往會出現Ghost區域,Ghost區域也就是指當一個原本靜止的物體開始運動,背靜差檢測算法可能會将原來該物體所覆寫的區域錯誤的檢測為運動的,這塊區域就成為Ghost,當然原來運動的物體變為靜止的也會引入Ghost區域,Ghost區域在檢測中必須被盡快的消除。

(2).基于統計學習的方法:這也是目前行人檢測最常用的方法,根據大量的樣本建構行人檢測分類器。提取的特征主要有目标的灰階、邊緣、紋理、顔色、梯度直方圖等資訊。分類器主要包括神經網絡、SVM、adaboost以及現在被計算機視覺視為寵兒的深度學習。

統計學習目前存在的難點:

  (a)行人的姿态、服飾各不相同、複雜的背景、不同的行人尺度以及不同的關照環境。

  (b)提取的特征在特征空間中的分布不夠緊湊;

  (c)分類器的性能受訓練樣本的影響較大;

  (d)離線訓練時的負樣本無法涵蓋所有真實應用場景的情況;

  目前的行人檢測基本上都是基于法國研究人員Dalal在2005的CVPR發表的HOG+SVM的行人檢測算法(Histograms of Oriented Gradients for Human Detection, Navneet Dalel,Bill Triggs, CVPR2005)。HOG+SVM作為經典算法也别內建到opencv裡面去了,可以直接調用實作行人檢測

  為了解決速度問題可以采用背景差分法的統計學習行人檢測,前提是背景模組化的方法足夠有效(即效果好速度快),目前獲得比較好的檢測效果的方法通常采用多特征融合的方法以及級聯分類器。(常用的特征有Harry-like、Hog特征、LBP特征、Edgelet特征、CSS特征、COV特征、積分通道特征以及CENTRIST特征。

2.行人檢測綜述性文章  

[1] D. Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.

[2] P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art [J].IEEE Transactions on PatternAnalysis andMachine Intelligence, 2012, 34(4): 743-761.

[3]蘇松志, 李紹滋, 陳淑媛等. 行人檢測技術綜述[J]. 電子學報, 2012, 40(4): 814-820.

[4]M. Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis andMachine Intelligence, 2009, 31(12): 2179-2195.

[5] D. Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driverassistance systems [J]. IEEE Transactionson Pattern Analysis and Machine Intelligence, 2010, 32(7): 1239-1258.

[6]賈慧星, 章毓晉.車輛輔助駕駛系統中基于計算機視覺的行人檢測研究綜述[J], 自動化學報, 2007, 33(1): 84-90.

[7] 許言午, 曹先彬,喬紅. 行人檢測系統研究新進展及關鍵技術展望[J], 電子學報, 2008, 36(5): 368-376.

[8] 杜友田; 陳峰;徐文立; 李永彬;基于視覺的人的運動識别綜述, 電子學報, 2007. 35(1): 84-90.

[9]朱文佳. 基于機器學習的行人檢測關鍵技術研究[D]. 第一章, 碩士學位論文, 上海交通大學. 2008. 指導教師: 戚飛虎.

 最新論文

2014_ITS_Toward real-time pedestrian detection based on a deformable template model

2014_PAMI_Scene-specific pedestrian detection for static video surveillance

2014_CVPR_Pedestrian Detection in Low-resolution Imagery by Learning Multi-scale Intrinsic Motion Structures (MIMS)

2014_CVPR_Switchable Deep Network for Pedestrian Detection

2014_CVPR_Informed Haar-like Features Improve Pedestrian Detection

2014_CVPR_Word Channel Based Multiscale Pedestrian Detection Without Image Resizing and Using Only One Classifier

2013_BMVC_Surveillance camera autocalibration based on pedestrian height distribution

2013_Virtual and real world adaptation for pedestrian detection

2013_Search space reduction in pedestrian detection for driver assistance system based on projective geometry

2013_CVPR_Robust Multi-Resolution Pedestrian Detection in Traffic Scenes

2013_CVPR_Optimized Pedestrian Detection for Multiple and Occluded People

2013_CVPR_Pedestrian Detection with Unsupervised and Multi-Stage Feature Learning

2013_CVPR_Single-Pedestrian Detection aided by Multi-pedestrian Detection

2013_CVPR_Modeling Mutual Visibility Relationship in Pedestrian Detection

2013_CVPR_Local Fisher Discriminant Analysis for Pedestrian Re-identification

 3.行人檢測source code

1.INRIA Object detection and Localization Toolkit, Dalal于2005年提出了基于HOG特征的行人檢測方法,行人檢測領域中的經典文章之一。HOG特征目前也被用在其他的目标檢測與識别、圖像檢索和跟蹤等領域中。

2. Real-time Pedestrian Detection. Jianxin Wu實作的快速行人檢測方法。

3. Hough Transfom for Pedestrian Detection. Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

4. HIKSVM, HOG+LBP+HIKSVM, 行人檢測的經典方法.

5. GroundHOG, GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011. CUDA版本的HOG+SVM, video.

6. 100FPS_PDS, Pedestrian detection at 100 frames per second, R. Benenson. CVPR, 2012. 實時的(⊙o⊙)哦。 Real-time!!!

7. POM: Probabilistic Occupancy Map. Multiple camera pedestrian detection.

8. Pitor Dollar Detector. Integral Channel Feature + 多尺度特征近似+多特征融合. Real-Time!

4.行人檢測DataSets

MIT資料庫

該資料庫為較早公開的行人資料庫,共924張行人圖檔(ppm格式,寬高為64x128),肩到腳的距離約80象素。該資料庫隻含正面和背面兩個視角,無負樣本,未區分訓練集和測試集。Dalal等采用“HOG+SVM”,在該資料庫上的檢測準确率接近100%。

INRIA資料庫

該資料庫是目前使用最多的靜态行人檢測資料庫,提供原始圖檔及相應的标注檔案。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖檔中人體大部分為站立姿勢且高度大于100個象素,部分标注可能不正确。圖檔主要來源于GRAZ-01、個人照片及google,是以圖檔的清晰度較高。在XP作業系統下部分訓練或者測試圖檔無法看清楚,但可用OpenCV正常讀取和顯示。

Daimler行人資料庫

該資料庫采用車載錄影機擷取,分為檢測和分類兩個資料集。檢測資料集的訓練樣本集有正樣本大小為18x36和48x96的圖檔各15560(3915x4)張,行人的最小高度為72個象素;負樣本6744張(大小為640x480或360x288)。測試集為一段27分鐘左右的視訊(分辨率為640x480),共21790張圖檔,包含56492個行人。分類資料庫有三個訓練集和兩個測試集,每個資料集有4800張行人圖檔,5000張非行人圖檔,大小均為18x36,另外還有3個輔助的非行人圖檔集,各1200張圖檔。

Caltech行人資料庫

該資料庫是目前規模較大的行人資料庫,采用車載攝像頭拍攝,約10個小時左右,視訊的分辨率為640x480,30幀/秒。标注了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關系及其遮擋的情況進行标注。資料集分為set00~set10,其中set00~set05為訓練集,set06~set10為測試集(标注資訊尚未公開)。性能評估方法有以下三種:(1)用外部資料進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調整參數,最後給出訓練集上的性能;(3)用set00~set05訓練,set06~set10做測試。由于測試集的标注資訊沒有公開,需要送出給Pitor Dollar。結果送出方法為每30幀做一個測試,将結果儲存在txt文檔中(檔案的命名方式為I00029.txt I00059.txt ……),每個txt檔案中的每行表示檢測到一個行人,格式為“[left, top,width, height, score]”。如果沒有檢測到任何行人,則txt文檔為空。該資料庫還提供了相應的Matlab工具包,包括視訊标注資訊的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

TUD行人資料庫

TUD行人資料庫為評估運動資訊在行人檢測中的作用,提供圖像對以便計算光流資訊。訓練集的正樣本為1092對圖像(圖檔大小為720x576,包含1776個行人);負樣本為192對非行人圖像(手持錄影機85對,車載錄影機107對);另外還提供26對車載錄影機拍攝的圖像(包含183個行人)作為附加訓練集。測試集有508對圖像(圖像對的時間間隔為1秒,分辨率為640x480),共有1326個行人。Andriluka等也建構了一個資料庫用于驗證他們提出的檢測與跟蹤相結合的行人檢測技術。該資料集的訓練集提供了行人的矩形框資訊、分割掩膜及其各部位(腳、小腿、大腿、軀幹和頭部)的大小和位置資訊。測試集為250張圖檔(包含311個完全可見的行人)用于測試檢測器的性能,2個視訊序列(TUD-Campus和TUD-Crossing)用于評估跟蹤器的性能。

NICTA行人資料庫

該資料庫是目前規模較大的靜态圖像行人資料庫,25551張含單人的圖檔,5207張高分辨率非行人圖檔,資料庫中已分好訓練集和測試集,友善不同分類器的比較。Overett等用“RealBoost+Haar”評估訓練樣本的平移、旋轉和寬高比等各種因素對分類性能的影響:(1)行人高度至少要大于40個象素;(2)在低分辨率下,對于Haar特征來說,增加樣本寬度的性能好于增加樣本高度的性能;(3)訓練圖檔的大小要大于行人的實際大小,即背景資訊有助于提高性能;(4)對訓練樣本進行平移提高檢測性能,旋轉對性能的提高影響不大。以上的結論對于建構行人資料庫具有很好的指導意義。

ETH行人資料庫

Ess等建構了基于雙目視覺的行人資料庫用于多人的行人檢測與跟蹤研究。該資料庫采用一對車載的AVT Marlins F033C攝像頭進行拍攝,分辨率為640x480,幀率13-14fps,給出标定資訊和行人标注資訊,深度資訊采用置信度傳播方法擷取。

CVC行人資料庫

該資料庫目前包含三個資料集(CVC-01、CVC-02和CVC-Virtual),主要用于車輛輔助駕駛中的行人檢測研究。CVC-01[Geronimo,2007]有1000個行人樣本,6175個非行人樣本(來自于圖檔中公路區域中的非行人圖檔,不像有的行人資料庫非行人樣本為天空、沙灘和樹木等自然圖像)。CVC-02包含三個子資料集(CVC-02-CG、CVC-02-Classification和CVC-02-System),分别針對行人檢測的三個不同任務:感興趣區域的産生、分類和系統性能評估。圖像的采集采用Bumblebee2立體彩色視覺系統,分辨率640x480,焦距6mm,對距離攝像頭0~50m的行人進行标注,最小的行人圖檔為12x24。CVC-02-CG主要針對候選區域的産生,有100張彩色圖像,包含深度和3D點資訊;CVC-02-Classification主要針對行人分類,訓練集有1016張正樣本,7650張負樣本,測試集分為基于切割視窗的分類(570張行人,7500張非行人)和整張圖檔的檢測(250張包含行人的圖檔,共587個行人);CVC-02-System主要用于系統的性能評估,包含15個視訊序列(4364幀),7983個行人。CVC-Virtual是通過Half-Life 2圖像引擎産生的虛拟行人資料集,共包含1678虛拟行人,2048個非行人圖檔用于測試。

USC行人資料庫

該資料庫包含三組資料集(USC-A、USC-B和USC-C),以XML格式提供标注資訊。USC-A[Wu, 2005]的圖檔來自于網絡,共205張圖檔,313個站立的行人,行人間不存在互相遮擋,拍攝角度為正面或者背面;USC-B的圖檔主要來自于CAVIAR視訊庫,包括各種視角的行人,行人之間有的互相遮擋,共54張圖檔,271個行人;USC-C有100張圖檔來自網絡的圖檔,232個行人(多角度),行人之間無互相遮擋。 

5.Others

相關資料資料

1. Edgar Seemann維護的行人檢測網站,比較全,包括publications, code, datasets等。

2. Pedestrian detection: state of the art. A video talk byPitor Dollar. Pitor Dollar做了很多關于行人檢測方法的研究,他們研究小組的Caltech Pedestrian Dataset也很出名。

6.人體行為識别(Human Action Recognition)

來源:http://hi.baidu.com/susongzhi/item/656d196a2dcd733cac3e83e3

1. Statistical and Structural Recognition of Human Actions. ECCV, 2010 Tutorial, by Ivan Laptev and Greg Mori. (注:要用爬牆軟體才能通路到)

2. Human Action Recognition in realistic scenarios, 一份很好的碩士生畢業論文開題資料。

參考:http://hi.baidu.com/susongzhi/item/085983081b006311eafe38e7