一、轉自: http://blog.csdn.net/dcraw/article/details/7617891
二、轉自:http://blog.csdn.net/qq_26499769/article/details/78989088
遇到了大神一樣的部落格存在~總結的非常全面到位!
一、由于新浪愛問關閉了,把文章都放在了百度雲盤裡
http://pan.baidu.com/s/1hqf4SkO
http://pan.baidu.com/s/1hq253z2
曆時一個多月,終于用業餘時間把這些資料整理出來了。以後可能會有些小修小補,但不會有太大的變化了。萬裡長征走完了第一步,剩下的就是了解和消化了。借新浪ishare共享出來,希望能夠對你的科研也有一定的幫助。現在已經把所有的文章打包,分成了16個子檔案,歡迎整體下載下傳。
圖像處理與計算機視覺:基礎,經典以及最近發展(1)序
圖像處理與計算機視覺:基礎,經典以及最近發展(2)圖像處理與計算機視覺相關的書籍
圖像處理與計算機視覺:基礎,經典以及最近發展(3)計算機視覺中的信号處理與模式識别
圖像處理與計算機視覺:基礎,經典以及最近發展(4)圖像處理與分析
圖像處理與計算機視覺:基礎,經典以及最近發展(5)計算機視覺
下面這個是以前整理的一個版本,按年份歸類的,不全
圖像處理和計算機視覺中的經典論文(部分)
UIUC的Jia-Bin Huang同學整理很多計算機視覺的資源,主要是代碼,很全。
同樣是UIUC(現在在IBM)的Cao liangliang同學也整理了一些資料,很不錯。主要包括
Boosting (updated 08/2008)
Salient patches (updated 08/2008) 實際上就是特征提取,檢測和比對
Mean Shift (updated 2008)
Action recognition (updated 2009)
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
二、圖像處理與計算機視覺 基礎、經典以及最近發展
圖像處理與計算機視覺基礎,經典以及最近發展
By xdyang(楊曉冬[email protected])
一、 緒論
1. 為什麼要寫這篇文章
從2002年到現在,接觸圖像快十年了。雖然沒有做出什麼很出色的工作,不過在這個領域摸爬滾打了十年之後,發現自己對圖像處理和計算機視覺的感情越來越深厚。下班之後看看相關的書籍和文獻是一件很惬意的事情。平常的一大業餘愛好就是收集一些相關的文章,尤其是經典的文章,到現在我的電腦裡面已經有了幾十G的文章。寫這個文檔的想法源于我前一段時間整理文獻時的一個突發奇想,既然有這個多文獻,何不整理出其中的經典,抓住重點來閱讀,同時也可以共享給大家。于是當時即興寫了一個《圖像處理與計算機視覺中的經典論文》。現在來看,那個文檔寫得很一般,所共享的論文也非常之有限。就算如此,還是得到了一些網友的誇獎,心裡感激不盡。是以,一直想下定決心把這個工作給完善,力求做到盡量全面。
本文是對現有的圖像處理和計算機視覺的經典書籍(後面會有推薦)的一個補充。一般的圖像處理書籍都是介紹性的介紹某個方法,在每個領域内都會引用幾十上百篇參考文獻。有時候想深入研究這個領域的時候卻發現文獻太多,不知如何選擇。但實際上在每個領域都有那麼三五篇抑或更多是非讀不可的經典文獻。這些文獻除了提出了很經典的算法,同時他們的Introduction和Related work也是對所在的領域很好的總結。讀通了這幾篇文獻也就等于深入了解了這個領域,比單純的看書收獲要多很多。寫本文的目的就是想把自己所了解到的各個領域的經典文章整理出來,不用迷失在參考文獻的汪洋大海裡。
2. 圖像處理和計算機視覺的分類
按照目前流行的分類方法,可以分為以下三部分:
A.圖像處理:對輸入的圖像做某種變換,輸出仍然是圖像,基本不涉及或者很少涉及圖像内容的分析。比較典型的有圖像變換,圖像增強,圖像去噪,圖像壓 縮,圖像恢複,二值圖像處理等等。基于門檻值的圖像分割也屬于圖像處理的範疇。一般處理的是單幅圖像。
B.圖像分析:對圖像的内容進行分析,提取有意義的特征,以便于後續的處理。處理的仍然是單幅圖像。
C.計算機視覺:對圖像分析得到的特征進行分析,提取場景的語義表示,讓計算機具有人眼和人腦的能力。這時處理的是多幅圖像或者序列圖像,當然也包括部分單幅圖像。
關于圖像處理,圖像分析和計算機視覺的劃分并沒有一個很統一的标準。一般的來說,圖像處理的書籍總會或多或少的介紹一些圖像分析和計算機視覺的知識,比如岡薩雷斯的數字圖像處理。而計算機視覺的書籍基本上都會包括圖像處理和圖像分析,隻是不會介紹的太詳細。其實圖像處理,圖像分析和計算機視覺都可以納入到計算機視覺的範疇:圖像處理->低層視覺(low level vision),圖像分析->中間層視覺(middle level vision),計算機視覺->高層視覺(high level vision)。這是一般的計算機視覺或者機器視覺的劃分方法。在本文中,仍然按照傳統的方法把這個領域劃分為圖像處理,圖像分析和計算機視覺。
3. 圖像處理和計算機視覺開源庫以及程式設計語言選擇
目前在圖像進行中有兩種最重要的語言:c/c++和matlab。它們各有優點:c/c++比較适合大型的工程,效率較高,而且容易轉成硬體語言,是工業界的預設語言之一。而matlab實作起來比較友善,适用于算法的快速驗證,而且matlab有成熟的工具箱可以使用,比如圖像處理工具箱,信号處理工具箱。它們有一個共同的特點:開源的資源非常多。在學術界matlab使用的非常多,很多作者給出的源代碼都是matlab版本。最近由于OpenCV的興起和不斷完善,c/c++在圖像進行中的作用越來越大。總的來說,c/c++和matlab都必須掌握,最好是精通,當然側重在c/c++上對找工作會有很大幫助。
至于開源庫,個人非常推薦OpenCV,主要有以下原因:
(1)簡單易入手。OpenCV進入OpenCV2.x的時代後,使用起來越來越簡單,接口越來越傻瓜化,越來越matlab化。隻要會imread,imwrite,imshow和了解Mat的基本操作就可以開 始入手了。
(2)OpenCV有一堆圖像處理和計算機視覺的大牛在維護,bug在逐漸減少,每個新的版本都會帶來不同的驚喜。而且它已經或者逐漸在移植到不懂的平台,并提供了對Python的很好的支援。
(3)在opencv上可以嘗試各種最新以及成熟的技術,而不需要自己從頭去寫,比如人臉檢測(Harr,LBP),DPM(Latent SVM),高斯背景模型,特征檢測,聚類,hough變換等等 。而且它還支援各種機器學習方法(SVM,NN,KNN,決策樹,Boosting等),使用起來很簡單。
(4)文檔内容豐富,并且給出了很多示例程式。當然也有一些地方文檔描述不清楚,不過看看代碼就很清楚了。
(5)完全開源。可以從中間提取出任何需要的算法。
(6)從學校出來後,除極少數會繼續在學術圈裡,大部分還是要進入工業界。現在在工 業界,c/c++仍是主流,很多公司都會優先考慮熟悉或者精通OpenCV的。事實上,在學術界,現在OpenCV也大有取代matlab之勢。以前的demo或者source code,很多作者都願意給出matlab版本的,然後别人再呼哧呼哧改成c版本的。現在作者幹脆給出c/c++版本,或者自己內建到OpenCV中去,這樣能快速提升自己的影響力。
如果想在圖像處理和計算機視覺界有比較深入的研究,并且以後打算進入這個領域工作的話,建議把OpenCV作為自己的主攻方向。如果找工作的時候敢号稱自己精通OpenCV的話,肯定可以找到一份滿意的工作。
4. 本文的特點和結構,以及适合的對象
在本文 面向的對象是即将進入或者剛剛進入圖像處理和計算機視覺領域的童鞋,可以在閱讀書籍的同時參閱這些文獻,能對書中提到的算法有比較深刻的了解。由于本文涉及到的範圍比較廣,如果能對計算機視覺的資深從業者也有一定的幫助,我将倍感欣慰。為了不至太誤人子弟,每一篇文章都或多或少的看了一下,最不濟也看了摘要(這句話實在整理之前寫的,實際上由于精力有限,好多文獻都隻是大概掃了一眼,然後看了看google的引用數,一般在1000以上就放上來了,把這些文章細細品味一遍也是我近一兩年之内的目标)。在成文的過程中,我本人也受益匪淺,希望能對大家也有所幫助。
由于個人精力和視野的關系,有一些我未涉足過的領域不敢鬥膽推薦,隻是列出了一些引用率比較高的文章,比如錄影機标定和立體視覺。不過将來,由于工作或者其他原因,這些領域也會接觸到,我會逐漸增減這些領域的文章。盡管如此,仍然會有疏漏,忘見諒。同時文章的挑選也夾帶了一些個人的喜好,比如我個人比較喜歡low level方向的,尤其是IJCV和PAMI上面的文章,是以這方面也稍微多點,希望不要引起您的反感。如果有什麼意見或者建議,歡迎mail我。文章和資源我都會在我的csdn blog和sina ishare同步更新。此申明:這些論文的版權歸作者及其出版商所有,請勿用于商業目的。
個人blog: http://blog.csdn.NET/dcraw
新浪iask位址:http://iask.sina.com.cn/u/2252291285/ish?folderid=868438
本文的安排如下。第一部分是緒論。第二部分是圖像進行中所需要用到的理論基礎,主要是這個領域所涉及到的一些比較好的參考書籍。第三部分是計算機視覺中所涉及到的信号處理和模式識别文章。由于圖像處理與圖像分析太難區分了,第四部分集中讨論了它們。第五部分是計算機視覺部分。最後是小結。
二、 圖像處理與計算機視覺相關的書籍
1. 數學
我們所說的圖像處理實際上就是數字圖像處理,是把真實世界中的連續三維随機信号投影到傳感器的二維平面上,采樣并量化後得到二維矩陣。數字圖像處理就是二維矩陣的處理,而從二維圖像中恢複出三維場景就是計算機視覺的主要任務之一。這裡面就涉及到了圖像處理所涉及到的三個重要屬性:連續性,二維矩陣,随機性。所對應的數學知識是高等數學(微積分),線性代數(矩陣論),機率論和随機過程。這三門課也是考研數學的三個組成部分,構成了圖像處理和計算機視覺最基礎的數學基礎。如果想要更進一步,就要到網上搜搜林達華推薦的數學書目了。
2. 信号處理
圖像處理其實就是二維和三維信号處理,而處理的信号又有一定的随機性,是以經典信号處理和随機信号處理都是圖像處理和計算機視覺中必備的理論基礎。
2.1經典信号處理
信号與系統(第2版) Alan V.Oppenheim等著 劉樹棠譯離散時間信号處理(第2版) A.V.奧本海姆等著 劉樹棠譯數字信号處理:理論算法與實作 胡廣書 (編者)
2.2随機信号處理
現代信号處理 張賢達著統計信号處理基礎:估計與檢測理論 Steven M.Kay等著 羅鵬飛等譯自适應濾波器原理(第4版) Simon Haykin著 鄭寶玉等譯
2.3 小波變換
信号處理的小波導引:稀疏方法(原書第3版) tephane Malla著, 戴道清等譯
2.4 資訊論
資訊論基礎(原書第2版) Thomas M.Cover等著 阮吉壽等譯
3. 模式識别
Pattern Recognition and Machine Learning Bishop, Christopher M. Springer模式識别(英文版)(第4版) 西奧多裡德斯著Pattern Classification (2nd Edition) Richard O. Duda等著Statistical Pattern Recognition, 3rd Edition Andrew R. Webb等著模式識别(第3版) 張學工著
4. 圖像處理與計算機視覺的書籍推薦
圖像處理,分析與機器視覺 第三版 Sonka等著 艾海舟等譯Image Processing, Analysis and Machine Vision
( 附:這本書是圖像處理與計算機視覺裡面比較全的一本書了,幾乎涵蓋了圖像視覺領域的各個方面。中文版的個人感覺也還可以,值得一看。)
數字圖像處理 第三版 岡薩雷斯等著Digital Image Processing
(附:數字圖像處理永遠的經典,現在已經出到了第三版,相當給力。我的導師曾經說過,這本書寫的很優美,對寫英文論文也很有幫助,建議購買英文版的。)
計算機視覺:理論與算法 Richard Szeliski著Computer Vision: Theory and Algorithm
(附:微軟的Szeliski寫的一本最新的計算機視覺著作。内容非常豐富,尤其包括了作者的研究興趣,比如一般的書裡面都沒有的Image Stitching和 Image Matting等。這也從另一個側面說明這本書的通用性不如Sonka的那本。不過作者開放了這本書的電子版,可以有選擇性的閱讀。
http://szeliski.org/Book/
Multiple View Geometry in Computer Vision 第二版Harley等著
引用達一萬多次的經典書籍了。第二版到處都有電子版的。第一版曾出過中文版的,後來絕版了。網上也可以找到中英文版的電子版。)
計算機視覺:一種現代方法 DA Forsyth等著Computer Vision: A Modern ApproachMIT的經典教材。雖然已經過去十年了,還是值得一讀。期待第二版Machine vision: theory, algorithms, practicalities 第三版 Davies著(附:為數不多的英國人寫的書,偏向于工業應用。)
數字圖像處理 第四版 Pratt著Digital Image Processing(附:寫作風格獨樹一幟,也是圖像處理領域很不錯的一本書。網上也可以找到非常清晰的電子版。)
5. 小結
羅嗦了這麼多,實際上就是幾個建議:
(1)基礎書千萬不可以扔,也不能低價處理給同學或者師弟師妹。不然到時候還得一本本從書店再買回來的。錢是一方面的問題,對着全新的書看完全沒有看自己當年上過的課本有感覺。
(2)遇到有相關的課,果斷選修或者蹭之,比如随機過程,小波分析,模式識别,機器學習,資料挖掘,現代信号處理甚至泛函。多一些理論積累對将來科研和工作都有好處。
(3)資金允許的話可以多囤一些經典的書,有的時候從牙縫裡面省一點都可以買一本好書。不過千萬不要像我一樣隻囤不看。
三、 計算機視覺中的信号處理與模式識别
從本章開始,進入本文的核心章節。一共分三章,分别講述信号處理與模式識别,圖像處理與分析以及計算機視覺。與其說是講述,不如說是一些經典文章的羅列以及自己的簡單點評。與前一個版本不同的是,這次把所有的文章按類别歸了類,并且增加了很多文獻。分類的時候并沒有按照傳統的分類方法,而是劃分成了一個個小的門類,比如SIFT,Harris都作為了單獨的一類,雖然它們都可以劃分到特征提取裡面去。這樣做的目的是希望能突出這些比較實用且比較流行的方法。為了以後維護的友善,按照字母順序排的序。
1. Boosting
Boosting是最近十來年來最成功的一種模式識别方法之一,個人認為可以和SVM并稱為模式識别雙子星。它真正實作了“三個臭皮匠,賽過諸葛亮”。隻要保證每個基本分類器的正确率超過50%,就可以實作組合成任意精度的分類器。這樣就可以使用最簡單的線性分類器。Boosting在計算機視覺中的最成功的應用無疑就是Viola-Jones提出的基于Haar特征的人臉檢測方案。聽起來似乎不可思議,但Haar+Adaboost确實在人臉檢測上取得了巨大的成功,已經成了工業界的事實标準,并且逐漸推廣到其他物體的檢測。
Rainer Lienhart在2002 ICIP發表的這篇文章是Haar+Adaboost的最好的擴充,他把原始的兩個方向的Haar特征擴充到了四個方向,他本人是OpenCV積極的參與者。現在OpenCV的庫裡面實作的Cascade Classification就包含了他的方法。這也說明了盛會(如ICIP,ICPR,ICASSP)也有好文章啊,隻要用心去發掘。
[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting[1998] Boosting the margin A new explanation for the effectiveness of voting methods[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection[2003] The Boosting Approach to Machine Learning An Overview[2004 IJCV] Robust Real-time Face Detection
2. Clustering
聚類主要有K均值聚類,譜聚類和模糊聚類。在聚類的時候如果自動确定聚類中心的數目是一個一直沒有解決的問題。不過這也很正常,評價标準不同,得到的聚類中心數目也不一樣。不過這方面還是有一些可以參考的文獻,在使用的時候可以基于這些方法設計自己的準則。關于聚類,一般的模式識别書籍都介紹的比較詳細,不過關于cluster validity講的比較少,可以參考下面的文章看看。
[1989 PAMI] Unsupervised Optimal Fuzzy Clustering[1991 PAMI] A validity measure for fuzzy clustering[1995 PAMI] On cluster validity for the fuzzy c-means model[1998] Some New Indexes of Cluster Validity[1999 ACM] Data Clustering A Review[1999 JIIS] On Clustering Validation Techniques[2001] Estimating the number of clusters in a dataset via the Gap statistic[2001 NIPS] On Spectral Clustering[2002] A stability based method for discovering structure in clustered data[2007] A tutorial on spectral clustering
3. Compressive Sensing
最近大紅大紫的壓縮感覺理論。
[2006 TIT] Compressed Sensing[2008 SPM] An Introduction to Compressive Sampling[2011 TSP] Structured Compressed Sensing From Theory to Applications
4. Decision Trees
對決策樹感興趣的同學這篇文章是非看不可的了。
[1986] Introduction to Decision Trees
5. Dynamical Programming
動态規劃也是一個比較使用的方法,這裡挑選了一篇PAMI的文章以及一篇Book Chapter
[1990 PAMI] using dynamic programming for solving variational problems in vision[Book Chapter] Dynamic Programming
6. Expectation Maximization
EM是計算機視覺中非常常見的一種方法,尤其是對參數的估計和拟合,比如高斯混合模型。EM和GMM在Bishop的PRML裡單獨的作為一章,講的很不錯。關于EM的tutorial,網上也可以搜到很多。
[1977] Maximum likelihood from incomplete data via the EM algorithm[1996 SPM] The Expectation-Maximzation Algorithm
7. Graphical Models
伯克利的喬丹大師的Graphical Model,可以配合這Bishop的PRML一起看。
[1999 ML] An Introduction to Variational Methods for Graphical Models
8. Hidden Markov Model
HMM在語音識别中發揮着巨大的作用。在信号處理和圖像進行中也有一定的應用。最早接觸它是跟小波和檢索相關的,用HMM來描述小波系數之間的互相關系,并用來做檢索。這裡提供一篇1989年的經典綜述,幾篇HMM在小波,分割,檢索和紋理上的應用以及一本比較早的中文電子書,現在也不知道作者是誰,在這裡對作者表示感謝。
[1989 ] A tutorial on hidden markov models and selected applications in speech recognition[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hidden Markov models[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov modelsHmm Chinese book.pdf
9. Independent Component Analysis
同PCA一樣,獨立成分分析在計算機視覺中也發揮着重要的作用。這裡介紹兩篇綜述性的文章,最後一篇是第二篇的TR版本,内容差不多,但比較清楚一些。
[1999] Independent Component Analysis A Tutorial[2000 NN] Independent component analysis algorithms and applications[2000] Independent Component Analysis Algorithms and Applications
10. Information Theory
計算機視覺中的資訊論。這方面有一本很不錯的書Information Theory in Computer Vision and Pattern Recognition。這本書有電子版,如果需要用到的話,也可以參考這本書。
[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution[2010] An information theory perspective on computational vision
11. Kalman Filter
這個話題在張賢達老師的現代信号處理裡面講的比較深入,還給出了一個有趣的例子。這裡列出了Kalman的最早的論文以及幾篇綜述,還有Unscented Kalman Filter。同時也有一篇Kalman Filter在跟蹤中的應用以及兩本電子書。
[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman[1970] Least-squares estimation_from Gauss to Kalman[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System[2000] The Unscented Kalman Filter for Nonlinear Estimation[2001 Siggraph] An Introduction to the Kalman Filter_full[2003] A Study of the Kalman Filter applied to Visual Tracking
12. Pattern Recognition and Machine Learning
模式識别名氣比較大的幾篇綜述
[2000 PAMI] Statistical pattern recognition a review[2004 CSVT] An Introduction to Biometric Recognition[2010 SPM] Machine Learning in Medical Imaging
13. Principal Component Analysis
著名的PCA,在特征的表示和特征降維上非常有用。
[2001 PAMI] PCA versus LDA[2001] Nonlinear component analysis as a kernel eigenvalue problem[2002] A Tutorial on Principal Component Analysis[2009] A Tutorial on Principal Component Analysis[2011] Robust Principal Component Analysis[Book Chapter] Singular Value Decomposition and Principal Component Analysis
14. Random Forest
随機森林
[2001 ML] Random Forests
15. RANSAC
随機抽樣一緻性方法,與傳統的最小均方誤差等完全是兩個路子。在Sonka的書裡面也有提到。
[2009 BMVC] Performance Evaluation of RANSAC Family
16. Singular Value Decomposition
對于非方陣來說,就是SVD發揮作用的時刻了。一般的模式識别書都會介紹到SVD。這裡列出了K-SVD以及一篇Book Chapter
[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation[Book Chapter] Singular Value Decomposition and Principal Component Analysis
17. Sparse Representation
這裡主要是Proceeding of IEEE上的幾篇文章
[2009 PAMI] Robust Face Recognition via Sparse Representation[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview[2010 PIEEE] Dictionaries for Sparse Representation Modeling[2010 PIEEE] It's All About the Data[2010 PIEEE] Matrix Completion With Noise[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition[2011 SPM] Directionary Learning18. Support Vector Machines[1998] A Tutorial on Support Vector Machines for Pattern Recognition[2004] LIBSVM A Library for Support Vector Machines
19. Wavelet
在小波變換之前,時頻分析的工具隻有傅立葉變換。衆所周知,傅立葉變換在時域沒有分辨率,不能捕捉局部頻域資訊。雖然短時傅立葉變換克服了這個缺點,但隻能刻畫恒定視窗的頻率特性,并且不能很好的擴充到二維。小波變換的出現很好的解決了時頻分析的問題,作為一種多分辨率分析工具,在圖像進行中得到了極大的發展和應用。在小波變換的發展過程中,有幾個人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的架構,他們的著作更是小波變換的必讀之作,相對來說,小波十講太偏數學了,比較難懂。而Mallat的信号處理的小波導引更偏應用一點。Swelden提出了第二代小波,使小波變換能夠快速友善的實作,他的功勞有點類似于FFT。而Donoho,Vetteri,Mallat及其學生們提出了Ridgelet, Curvelet, Bandelet,Contourlet等幾何小波變換,讓小波變換有了方向性,更便于壓縮,去噪等任務。尤其要提的是M.N.Do,他是一個越南人,得過IMO的銀牌,在這個領域著作頗豐。我們國家每年都有5個左右的IMO金牌,希望也有一兩個進入這個領域,能夠也讓我等也敬仰一下。而不是一股腦的都進入金融,管理這種跟數學沒有多大關系的行業,呵呵。很希望能看到中國的陶哲軒,中國的M.N.Do。
說到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法實作的9/7小波和5/3小波。如果對比JPEG和JPEG2000,就會發現JPEG2000比JPEG在性能方面有太多的提升。本來我以為JPEG2000的普及隻是時間的問題。但現在看來,這個想法太Naive了。現在已經過去十幾年了,JPEG2000依然沒有任何出頭的迹象。不得不說,工業界的慣性力量太強大了。如果以前的東西沒有什麼硬傷的話,想改變太難了。不巧的是,JPEG2000的種種優點在最近的硬體上已經有了很大的提升。壓縮率?現在動辄1T,2T的硬碟,沒人太在意壓縮率。漸進傳輸?現在的網速包括無線傳輸的速度已經相當快了,漸進傳輸也不是什麼優勢。感覺現在做圖像壓縮越來越沒有前途了,從最近的會議和期刊文檔也可以看出這個趨勢。不管怎麼說,JPEG2000的Overview還是可以看看的。
[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation[1996 PAMI] Image Representation using 2D Gabor Wavelet[1998 ] FACTORING WAVELET TRANSFORMS INTO LIFTING STEPS[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets[2000 TCE] The JPEG2000 still image coding system_ an overview[2002 TIP] The curvelet transform for image denoising[2003 TIP] Gray and color image contrast enhancement by the curvelet transform[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters[2003 TIP] The finite ridgelet transform for image representation[2005 TIP] Sparse Geometric Image Representations With Bandelets[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation[2010 SPM] The Curvelet Transform
四、 圖像處理與分析
本章主要讨論圖像處理與分析。雖然後面計算機視覺部分的有些内容比如特征提取等也可以歸結到圖像分析中來,但鑒于它們與計算機視覺的緊密聯系,以及它們的出處,沒有把它們納入到圖像處理與分析中來。同樣,這裡面也有一些也可以劃歸到計算機視覺中去。這都不重要,隻要知道有這麼個方法,能為自己所用,或者從中得到靈感,這就夠了。
1. Bilateral Filter
Bilateral Filter俗稱雙邊濾波器是一種簡單實用的具有保持邊緣作用的平緩濾波器,由Tomasi等在1998年提出。它現在已經發揮着重大作用,尤其是在HDR領域。
[1998 ICCV] Bilateral Filtering for Gray and Color Images[2008 TIP] Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal
2. Color
如果對顔色的形成有一定的了解,能比較深刻的了解一些算法。這方面推薦岡薩雷斯的數字圖像進行中的相關章節以及Sharma在Digital Color Imaging Handbook中的第一章“Color fundamentals for digital imaging”。跟顔色相關的知識包括Gamma,顔色空間轉換,顔色索引以及膚色模型等,這其中也包括著名的EMD。
[1991 IJCV] Color Indexing[2000 IJCV] The Earth Mover's Distance as a Metric for Image Retrieval[2001 PAMI] Color invariance[2002 IJCV] Statistical Color Models with Application to Skin Detection[2003] A review of RGB color spaces[2007 PR]A survey of skin-color modeling and detection methodsGamma.pdfGammaFAQ.pdf
3. Compression and Encoding
個人以為圖像壓縮編碼并不是目前很熱的一個話題,原因前面已經提到過。這裡可以看看一篇對編碼方面的展望文章
[2005 IEEE] Trends and perspectives in image and video coding
4. Contrast Enhancement
對比度增強一直是圖像進行中的一個恒久話題,一般來說都是基于直方圖的,比如直方圖均衡化。岡薩雷斯的書裡面對這個話題講的比較透徹。這裡推薦幾篇個人認為不錯的文章。
[2002 IJCV] Vision and the Atmosphere[2003 TIP] Gray and color image contrast enhancement by the curvelet transform[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast enhancement-part II[2006 TIP] Gray-level grouping (GLG) an automatic method for optimized image contrast Enhancement-part I[2007 TIP] Transform Coefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy[2009 TIP] A Histogram Modification Framework and Its Application for Image Contrast Enhancement
5. Deblur (Restoration)
圖像恢複或者圖像去模糊一直是一個非常難的問題,尤其是盲圖像恢複。港中文的jiaya jia老師在這方面做的不錯,他在首頁也給出了可執行檔案。這方面的内容也建議看岡薩雷斯的書。這裡列出了幾篇口碑比較好的文獻,包括古老的Richardson-Lucy方法,幾篇盲圖像恢複的綜述以及最近的幾篇文章,尤以Fergus和Jiaya Jia的為經典。
[1972] Bayesian-Based Iterative Method of Image Restoration[1974] an iterative technique for the rectification of observed distributions[1990 IEEE] Iterative methods for image deblurring[1996 SPM] Blind Image Deconvolution[1997 SPM] Digital image restoration[2005] Digital Image Reconstruction - Deblurring and Denoising[2006 Siggraph] Removing Camera Shake from a Single Photograph[2008 Siggraph] High-quality Motion Deblurring from a Single Image[2011 PAMI] Richardson-Lucy Deblurring for Scenes under a Projective Motion Path
6. Dehazing and Defog
嚴格來說去霧化也算是圖像對比度增強的一種。這方面最近比較好的工作就是He kaiming等提出的Dark Channel方法。這篇論文也獲得了2009的CVPR 最佳論文獎。2這位003年的廣東聯考狀元已經于2011年從港中文博士畢業加入MSRA(估計當時也就二十五六歲吧),相當了不起。
[2008 Siggraph] Single Image Dehazing[2009 CVPR] Single Image Haze Removal Using Dark Channel Prior[2011 PAMI] Single Image Haze Removal Using Dark Channel Prior
7. Denoising
圖像去噪也是圖像進行中的一個經典問題,在數位攝影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。
[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion. II[1992 SIAM] Image selective smoothing and edge detection by nonlinear diffusion[1992] Nonlinear total variation based noise removal algorithms[1994 SIAM] Signal and image restoration using shock filters and anisotropic diffusion[1995 TIT] De-noising by soft-thresholding[1998 TIP] Orientation diffusions[2000 TIP] Adaptive wavelet thresholding for image denoising and compression[2000 TIP] Fourth-order partial differential equations for noise removal[2001] Denoising through wavelet shrinkage[2002 TIP] The Curvelet Transform for Image Denoising[2003 TIP] Noise removal using fourth-order partial differential equation with applications to medical magnetic resonance images in space and time[2008 PAMI] Automatic Estimation and Removal of Noise from a Single Image[2009 TIP] Is Denoising Dead
8. Edge Detection
邊緣檢測也是圖像進行中的一個基本任務。傳統的邊緣檢測方法有基于梯度算子,尤其是Sobel算子,以及經典的Canny邊緣檢測。到現在,Canny邊緣檢測及其思想仍在廣泛使用。關于Canny算法的具體細節可以在Sonka的書以及canny自己的論文中找到,網上也可以搜到。最快最直接的方法就是看OpenCV的源代碼,非常好懂。在邊緣檢測方面,Berkeley的大牛J Malik和他的學生在2004年的PAMI提出的方法效果非常好,當然也比較複雜。在複雜度要求不高的情況下,還是值得一試的。MIT的Bill Freeman早期的代表作Steerable Filter在邊緣檢測方面效果也非常好,并且便于實作。這裡給出了幾篇比較好的文獻,包括一篇最新的綜述。邊緣檢測是圖像處理和計算機視覺中任何方向都無法逃避的一個問題,這方面研究多深都不為過。
[1980] theory of edge detection[1983 Canny Thesis] find edge[1986 PAMI] A Computational Approach to Edge Detection[1990 PAMI] Scale-space and edge detection using anisotropic diffusion[1991 PAMI] The design and use of steerable filters[1995 PR] Multiresolution edge detection techniques[1996 TIP] Optimal edge detection in two-dimensional images[1998 PAMI] Local Scale Control for Edge Detection and Blur Estimation[2003 PAMI] Statistical edge detection_ learning and evaluating edge cues[2004 IEEE] Edge Detection Revisited[2004 PAMI] Design of steerable filters for feature detection using canny-like criteria[2004 PAMI] Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues[2011 IVC] Edge and line oriented contour detection State of the art
9. Graph Cut
基于圖割的圖像分割算法。在這方面沒有研究,僅僅列出幾篇引用比較高的文獻。這裡又見J Malik,當然還有華人傑出學者Jianbo Shi,他的首頁非常搞笑,在醒目的位置标注Do not fly China Eastern Airlines ... 看來是被坑過,而且坑的比較厲害。這個領域,俄羅斯人比較厲害。
[2000 PAMI] Normalized cuts and image segmentation[2001 PAMI] Fast approximate energy minimization via graph cuts[2004 PAMI] What energy functions can be minimized via graph cuts
10. Hough Transform
雖然霍夫變換可以擴充到廣義霍夫變換,但最常用的還是檢測圓和直線。這方面同樣推薦看OpenCV的源代碼,一目了然。Matas在2000年提出的PPHT已經內建到OpenCV中去了。
[1986 CVGIU] A Survey of the Hough Transform[1989] A Comparative study of Hough transform methods for circle finding[1992 PAMI] Shapes recognition using the straight line Hough transform_ theory and generalization[1997 PR] Extraction of line features in a noisy image[2000 CVIU] Robust Detection of Lines Using the Progressive Probabilistic Hough Transform
11. Image Interpolation
圖像插值,偶爾也用得上。一般來說,雙三次也就夠了
[2000 TMI] Interpolation revisited
12. Image Matting
也就是最近,我才知道這個詞翻譯成中文是摳圖,比較難聽,不知道是誰開始這麼翻譯的。沒有研究,請看文章以及Richard Szeliski的相關章節。以色列美女Levin在這方面有兩篇PAMI。
[2008 Fnd] Image and Video Matting A Survey[2008 PAMI] A Closed-Form Solution to Natural Image Matting[2008 PAMI] Spectral Matting
13. Image Modeling
圖像的統計模型。這方面有一本專門的著作Natural Image Statistics
[1994] The statistics of natural images[2003 JMIV] On Advances in Statistical Modeling of Natural Images[2009 IJCV] Fields of Experts[2009 PAMI] Modeling multiscale subbands of photographic images with fields of Gaussian scale mixtures
14. Image Quality Assessment
在圖像品質評價方面,Bovik是首屈一指的。這位老師也很有意思,作為編輯出版了很多書。他也是IEEE的Fellow
[2004 TIP] Image quality assessment from error visibility to structural similarity[2011 TIP] blind image quality assessment From Natural Scene Statistics to Perceptual Quality
15. Image Registration
圖像配準最早的應用在醫學圖像上,在圖像融合之前需要對圖像進行配準。在現在的計算機視覺中,配準也是一個需要了解的概念,比如跟蹤,拼接等。在KLT中,也會涉及到配準。這裡主要是綜述文獻。
[1992 MIA] Image matching as a diffusion process[1992 PAMI] A Method for Registration of 3-D shapes[1992] a survey of image registration techniques[1998 MIA] A survey of medical image registration[2003 IVC] Image registration methods a survey[2003 TMI] Mutual-Information-Based Registration of Medical Survey[2011 TIP] Hairis registration
16. Image Retrieval
圖像檢索曾經很熱,在2000年之後似乎消停了一段時間。最近各種圖像的不變性特征提出來之後,再加上網際網路搜尋的商業需求,這個方向似乎又要火起來了,尤其是在商業界,比如淘淘搜。這仍然是一個非常值得關注的方面。而且圖像檢索與目辨別别具有相通之處,比如特征提取和特征降維。這方面的文章值得一讀。在最後給出了兩篇Book chapter,其中一篇還是中文的。
[2000 PAMI] Content-based image retrieval at the end of the early years[2000 TIP] PicToSeek Combining Color and Shape Invariant Features for Image Retrieval[2002] Content-Based Image Retrieval Systems A Survey[2008] Content-Based Image Retrieval-Literature Survey[2010] Plant Image Retrieval Using Color,Shape and Texture Features[2012 PAMI] A Multimedia Retrieval Framework Based on Semi-Supervised Ranking and Relevance Feedback
CBIR Chinesefundament of cbir
17. Image Segmentation
圖像分割,非常基本但又非常難的一個問題。建議看Sonka和岡薩雷斯的書。這裡給出幾篇比較好的文章,再次看到了J Malik。他們給出了源代碼和測試集,有興趣的話可以試試。
[2004 IJCV] Efficient Graph-Based Image Segmentation[2008 CVIU] Image segmentation evaluation A survey of unsupervised methods[2011 PAMI] Contour Detection and Hierarchical Image Segmentation
18. Level Set
大名鼎鼎的水準集,解決了Snake固有的缺點。Level set的兩位提出者Sethian和Osher最後反目,實在讓人遺憾。個人以為,這種方法除了疊代比較費時,在真實場景中的表現讓人生疑。不過,2008年ECCV上的PWP方法在結果上很吸引人。在重初始化方面,Chunming Li給出了比較好的解決方案
[1995 PAMI] Shape modeling with front propagation_ a level set approach[2001 JCP] Level Set Methods_ An Overview and Some Recent Results[2005 CVIU] Geodesic active regions and level set methods for motion estimation and tracking[2007 IJCV] A Review of Statistical Approaches to Level Set Segmentation[2008 ECCV] Robust Real-Time Visual Tracking using Pixel-Wise Posteriors[2010 TIP] Distance Regularized Level Set Evolution and its Application to Image Segmentation
19. Pyramid
其實小波變換就是一種金字塔分解算法,而且具有無失真重構和非備援的優點。Adelson在1983年提出的Pyramid優點是比較簡單,實作起來比較友善。
[1983] The Laplacian Pyramid as a Compact Image Code
20. Radon Transform
Radon變換也是一種很重要的變換,它構成了圖像重建的基礎。關于圖像重建和radon變換,可以參考章毓晉老師的書,講的比較清楚。
[1993 PAMI] Image representation via a finite Radon transform[1993 TIP] The fast discrete radon transform I theory[2007 IVC] Generalised finite radon transform for N×N images
21. Scale Space
尺度空間濾波在現代不變特征中是一個非常重要的概念,有人說SIFT的提出者Lowe是不變特征之父,而Linderburg是不變特征之母。雖然尺度空間濾波是Witkin最早提出的,但其理論體系的完善和應用還是Linderburg的功勞。其在1998年IJCV上的兩篇文章值得一讀,不管是特征提取方面還是邊緣檢測方面。
[1987] Scale-space filtering[1990 PAMI] Scale-Space for Discrete Signals[1994] Scale-space theory A basic tool for analysing structures at different scales[1998 IJCV] Edge Detection and Ridge Detection with Automatic Scale Selection[1998 IJCV] Feature Detection with Automatic Scale Selection
22. Snake
活動輪廓模型,改變了傳統的圖像分割的方法,用能量收縮的方法得到一個統計意義上的能量最小(最大)的邊緣。
[1987 IJCV] Snakes Active Contour Models[1996 ] deformable model in medical image A Survey[1997 IJCV] geodesic active contour[1998 TIP] Snakes, shapes, and gradient vector flow[2000 PAMI] Geodesic active contours and level sets for the detection and tracking of moving objects[2001 TIP] Active contours without edges
23. Super Resolution
超分辨率分析。對這個方向沒有研究,簡單列幾篇文章。其中Yang Jianchao的那篇在IEEE上的下載下傳率一直居高不下。
[2002] Example-Based Super-Resolution[2009 ICCV] Super-Resolution from a Single Image[2010 TIP] Image Super-Resolution Via Sparse Representation
24. Thresholding
門檻值分割是一種簡單有效的圖像分割算法。這個topic在岡薩雷斯的書裡面講的比較多。這裡列出OTSU的原始文章以及一篇不錯的綜述。
[1979 IEEE] OTSU A threshold selection method from gray-level histograms[2001 JISE] A Fast Algorithm for Multilevel Thresholding[2004 JEI] Survey over image thresholding techniques and quantitative performance evaluation
25. Watershed
分水嶺算法是一種非常有效的圖像分割算法,它克服了傳統的門檻值分割方法的缺點,尤其是Marker-Controlled Watershed,值得關注。Watershed在岡薩雷斯的書裡面講的比較詳細。
[1991 PAMI] Watersheds in digital spaces an efficient algorithm based on immersion simulations[2001]The Watershed Transform Definitions, Algorithms and Parallelizat on Strategies
五、 計算機視覺
這一章是計算機視覺部分,主要側重在底層特征提取,視訊分析,跟蹤,目标檢測和識别方面等方面。對于自己不太熟悉的領域比如錄影機标定和立體視覺,僅僅列出上google上引用次數比較多的文獻。有一些剛剛出版的文章,個人非常喜歡,也列出來了。
1. Active Appearance Models
活動表觀模型和活動輪廓模型基本思想來源Snake,現在在人臉三維模組化方面得到了很成功的應用,這裡列出了三篇最早最經典的文章。對這個領域有興趣的可以從這三篇文章開始入手。
[1998 ECCV] Active Appearance Models[2001 PAMI] Active Appearance Models
2. Active Shape Models
[1995 CVIU]Active Shape Models-Their Training and Application
3. Background modeling and subtraction
背景模組化一直是視訊分析尤其是目标檢測中的一項關鍵技術。雖然最近一直有一些新技術的産生,demo效果也很好,比如基于dynamical texture的方法。但最經典的還是Stauffer等在1999年和2000年提出的GMM方法,他們最大的貢獻在于不用EM去做高斯拟合,而是采用了一種疊代的算法,這樣就不需要儲存很多幀的資料,節省了buffer。Zivkovic在2004年的ICPR和PAMI上提出了動态确定高斯數目的方法,把混合高斯模型做到了極緻。這種方法效果也很好,而且易于實作。在OpenCV中有現成的函數可以調用。在背景模組化大家族裡,無參數方法(2000 ECCV)和Vibe方法也值得關注。
[1997 PAMI] Pfinder Real-Time Tracking of the Human Body[1999 CVPR] Adaptive background mixture models for real-time tracking[1999 ICCV] Wallflower Principles and Practice of Background Maintenance[2000 ECCV] Non-parametric Model for Background Subtraction[2000 PAMI] Learning Patterns of Activity Using Real-Time Tracking[2002 PIEEE] Background and foreground modeling using nonparametrickernel density estimation for visual surveillance[2004 ICPR] Improved adaptive Gaussian mixture model for background subtraction[2004 PAMI] Recursive unsupervised learning of finite mixture models[2006 PRL] Efficient adaptive density estimation per image pixel for the task of background subtraction[2011 TIP] ViBe A Universal Background Subtraction Algorithm for Video Sequences
4. Bag of Words
詞袋,在這方面暫時沒有什麼研究。列出三篇引用率很高的文章,以後逐漸解剖之。
[2003 ICCV] Video Google A Text Retrieval Approach to Object Matching in Videos[2004 ECCV] Visual Categorization with Bags of Keypoints[2006 CVPR] Beyond bags of features Spatial pyramid matching for recognizing natural scene categories
5. BRIEF
BRIEF是Binary Robust Independent Elementary Features的簡稱,是近年來比較受關注的特征描述的方法。ORB也是基于BRIEF的。
[2010 ECCV] BRIEF Binary Robust Independent Elementary Features[2011 ICCV] ORB an efficient alternative to SIFT or SURF[2012 PAMI] BRIEF Computing a Local Binary Descriptor Very Fast
6. Camera Calibration and Stereo Vision
非常不熟悉的領域。僅僅列出了十來篇重要的文獻,供以後學習。
[1979 Marr] A Computational Theory of Human Stereo Vision[1985] Computational vision and regularization theory[1987 IEEE] A versatile camera calibration technique forhigh-accuracy 3D machine vision metrology using off-the-shelf TV cameras and lenses[1987] Probabilistic Solution of Ill-Posed Problems in Computational Vision[1988 PIEEE] Ill-Posed Problems in Early Vision[1989 IJCV] Kalman Filter-based Algorithms for Estimating Depth from Image Sequences[1990 IJCV] Relative Orientation[1990 IJCV] Using vanishing points for camera calibration[1992 ECCV] Camera self-calibration Theory and experiments[1992 IJCV] A theory of self-calibration of a moving camera[1992 PAMI] Camera calibration with distortion models and accuracy evaluation[1994 IJCV] The Fundamental Matrix Theory, Algorithms, and Stability Analysis[1994 PAMI] a stereo matching algorithm with an adaptive window theory and experiment[1999 ICCV] Flexible camera calibration by viewing a plane from unknown orientations[1999 IWAR] Marker tracking and hmd calibration for a video-based augmented reality conferencing system[2000 PAMI] A flexible new technique for camera calibration
7. Color and Histogram Feature
這裡面主要來源于圖像檢索,早期的圖像檢測基本基于全局的特征,其中最顯著的就是顔色特征。這一部分可以和前面的Color知識放在一起的。
[1995 SPIE] Similarity of color images[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE[1996] comparing images using color coherence vectors[1997 ] Image Indexing Using Color Correlograms[2001 TIP] An Efficient Color Representation for Image Retrieval[2009 CVIU] Performance evaluation of local colour invariants
8. Deformable Part Model
大紅大熱的DPM,在OpenCV中有一個專門的topic講DPM和latent svm
[2008 CVPR] A Discriminatively Trained, Multiscale, Deformable Part Model[2010 CVPR] Cascade Object Detection with Deformable Part Models[2010 PAMI] Object Detection with Discriminatively Trained Part-Based Models
9. Distance Transformations
距離變換,在OpenCV中也有實作。用來在二值圖像中尋找種子點非常友善。
[1986 CVGIP] Distance Transformations in Digital Images[2008 ACM] 2D Euclidean Distance Transform Algorithms A Comparative Survey
10. Face Detection
最成熟最有名的當屬Haar+Adaboost
[1998 PAMI] Neural Network-Based Face Detection[2002 PAMI] Detecting faces in images a survey[2002 PAMI] Face Detection in Color Images[2004 IJCV] Robust Real-Time Face Detection
11. Face Recognition
不熟悉,簡單羅列之。
[1991] Face Recognition Using Eigenfaces[2000 PAMI] Automatic Analysis of Facial Expressions The State of the Art[2000] Face Recognition A Literature Survey[2006 PR] Face recognition from a single image per person A survey[2009 PAMI] Robust Face Recognition via Sparse Representation
12. FAST
用機器學習的方法來提取角點,号稱很快很好。
[2006 ECCV] Machine learning for high-speed corner detection[2010 PAMI] Faster and Better A Machine Learning Approach to Corner Detection
13. Feature Extraction
這裡的特征主要都是各種不變性特征,SIFT,Harris,MSER等也屬于這一類。把它們單獨列出來是因為這些方法更流行一點。關于不變性特征,王永明與王貴錦合著的《圖像局部不變性特征與描述》寫的還不錯。Mikolajczyk在2005年的PAMI上的文章以及2007年的綜述是不錯的學習材料。
[1989 PAMI] On the detection of dominant points on digital curves[1997 IJCV] SUSAN—A New Approach to Low Level Image Processing[2004 IJCV] Matching Widely Separated Views Based on Affine Invariant Regions[2004 IJCV] Scale & Affine Invariant Interest Point Detectors[2005 PAMI] A performance evaluation of local descriptors[2006 IJCV] A Comparison of Affine Region Detectors[2007 FAT] Local Invariant Feature Detectors - A Survey[2011 IJCV] Evaluation of Interest Point Detectors and Feature Descriptors
14. Feature Matching
Fua課題組在今年PAMI上的一篇文章,感覺還不錯
[2012 PAMI] LDAHash Improved Matching with Smaller Descriptors
15. Harris
雖然過去了很多年,Harris角點檢測仍然廣泛使用,而且基于它有很多變形。如果仔細看了這種方法,從直覺也可以感覺到這是一種很穩健的方法。
[1988 Harris] A combined corner and edge detector
16. Histograms of Oriented Gradients
HoG方法也在OpenCV中實作了:HOGDescriptor。
[2005 CVPR] Histograms of Oriented Gradients for Human DetectionNavneetDalalThesis.pdf
17. Image Distance
[1993 PAMI] Comparing Images Using the Hausdorff Distance
18. Image Stitching
圖像拼接,另一個相關的詞是Panoramic。在Computer Vision: Algorithms and Applications一書中,有專門一章是讨論這個問題。這裡的兩面文章一篇是綜述,一篇是這方面很經典的文章。
[2006 Fnd] Image Alignment and Stitching A Tutorial[2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features
19. KLT
KLT跟蹤算法,基于Lucas-Kanade提出的配準算法。除了三篇很經典的文章,最後一篇給出了OpenCV實作KLT的細節。
[1981] An Iterative Image Registration Technique with an Application to Stereo Vision full version[1994 CVPR] Good Features to Track[2004 IJCV] Lucas-Kanade 20 Years On A Unifying FrameworkPyramidal Implementation of the Lucas Kanade Feature Tracker OpenCV
20. Local Binary Pattern
LBP。OpenCV的Cascade分類器也支援LBP,用來取代Haar特征。
[2002 PAMI] Multiresolution gray-scale and rotation Invariant Texture Classification with Local Binary Patterns[2004 ECCV] Face Recognition with Local Binary Patterns[2006 PAMI] Face Description with Local Binary Patterns[2011 TIP] Rotation-Invariant Image and Video Description With Local Binary Pattern Features
21. Low-Level Vision
關于Low level vision的兩篇很不錯的文章
[1998 TIP] A general framework for low level vision[2000 IJCV] Learning Low-Level Vision
22. Mean Shift
均值漂移算法,在跟蹤中非常流行的方法。Comaniciu在這個方面做出了重要的貢獻。最後三篇,一篇是CVIU上的top download文章,一篇是最新的PAMI上關于Mean Shift的文章,一篇是OpenCV實作的文章。
[1995 PAMI] Mean shift, mode seeking, and clustering[2002 PAMI] Mean shift a robust approach toward feature space analysis[2003 CVPR] Mean-shift blob tracking through scale space[2009 CVIU] Object tracking using SIFT features and mean shift[2012 PAMI] Mean Shift Trackers with Cross-Bin MetricsOpenCV Computer Vision Face Tracking For Use in a Perceptual User Interface
23. MSER
這篇文章發表在2002年的BMVC上,後來直接錄用到2004年的IVC上,内容差不多。MSER在Sonka的書裡面也有提到。
[2002 BMVC] Robust Wide Baseline Stereo from Maximally Stable Extremal Regions[2003] MSER Author Presentation[2004 IVC] Robust wide-baseline stereo from maximally stable extremal regions[2011 PAMI] Are MSER Features Really Interesting
24. Object Detection
首先要說的是第一篇文章的作者,Kah-Kay Sung。他是MIT的博士,後來到新加坡國立任教,極具潛力的一個老師。不幸的是,他和他的妻子都在2000年的新加坡空難中遇難,讓人唏噓不已。
http://en.wikipedia.org/wiki/Singapore_Airlines_Flight_006
最後一篇文章也是Fua課題組的,作者給出的demo效果相當好。
[1998 PAMI] Example-based learning for view-based human face detection[2003 IJCV] Learning the Statistics of People in Images and Video[2011 PAMI] Learning to Detect a Salient Object[2012 PAMI] A Real-Time Deformable Detector
25. Object Tracking
跟蹤也是計算機視覺中的經典問題。粒子濾波,卡爾曼濾波,KLT,mean shift,光流都跟它有關系。這裡列出的是傳統意義上的跟蹤,尤其值得一看的是2008的Survey和2003年的Kernel based tracking。
[2003 PAMI] Kernel-based object tracking[2007 PAMI] Tracking People by Learning Their Appearance[2008 ACM] Object Tracking A Survey[2008 PAMI] Segmentation and Tracking of Multiple Humans in Crowded Environments[2011 PAMI] Hough Forests for Object Detection, Tracking, and Action Recognition[2011 PAMI] Robust Object Tracking with Online Multiple Instance Learning[2012 IJCV] PWP3D Real-Time Segmentation and Tracking of 3D Objects
26. OCR
一個非常成熟的領域,已經很好的商業化了。
[1992 IEEE] Historical review of OCR research and developmentVideo OCR A Survey and Practitioner's Guide
27. Optical Flow
光流法,視訊分析所必需掌握的一種算法。
[1981 AI] Determine Optical Flow[1994 IJCV] Performance of optical flow techniques[1995 ACM] The Computation of Optical Flow[2004 TR] Tutorial Computing 2D and 3D Optical Flow[2005 BOOK] Optical Flow Estimation[2008 ECCV] Learning Optical Flow[2011 IJCV] A Database and Evaluation Methodology for Optical Flow
28. Particle Filter
粒子濾波,主要給出的是綜述以及1998 IJCV上的關于粒子濾波發展早期的經典文章。
[1998 IJCV] CONDENSATION—Conditional Density Propagation for Visual Tracking[2002 TSP] A tutorial on particle filters for online nonlinear non-Gaussian Bayesian tracking[2002 TSP] Particle filters for positioning, navigation, and tracking[2003 SPM] particle filter
29. Pedestrian and Human detection
仍然是綜述類,關于行人和人體的運動檢測和動作識别。
[1999 CVIU] Visual analysis of human movement_ A survey[2001 CVIU] A Survey of Computer Vision-Based Human Motion Capture[2005 TIP] Image change detection algorithms a systematic survey[2006 CVIU] a survey of avdances in vision based human motion capture[2007 CVIU] Vision-based human motion analysis An overview[2007 IJCV] Pedestrian Detection via Periodic Motion Analysis[2007 PR] A survey of skin-color modeling and detection methods[2010 IVC] A survey on vision-based human action recognition[2012 PAMI] Pedestrian Detection An Evaluation of the State of the Art
30. Scene Classification
當相機越來越傻瓜化的時候,自動場景識别就非常重要。這是比拼誰家的Auto功能做的比較好的時候了。
[2001 IJCV] Modeling the Shape of the Scene A Holistic Representation of the Spatial Envelope[2001 PAMI] Visual Word Ambiguity[2007 PAMI] A Thousand Words in a Scene[2010 PAMI] Evaluating Color Descriptors for Object and Scene Recognition[2011 PAMI] CENTRIST A Visual Descriptor for Scene Categorization
31. Shadow Detection
[2003 PAMI] Detecting moving shadows-- algorithms and evaluation
32. Shape
關于形狀,主要是兩個方面:形狀的表示和形狀的識别。形狀的表示主要是從邊緣或者區域當中提取不變性特征,用來做檢索或者識别。這方面Sonka的書講的比較系統。2008年的那篇綜述在這方面也講的不錯。至于形狀識别,最牛的當屬J Malik等提出的Shape Context。
[1993 PR] IMPROVED MOMENT INVARIANTS FOR SHAPE DISCRIMINATION[1993 PR] Pattern Recognition by Affine Moment Invariants[1996 PR] IMAGE RETRIEVAL USING COLOR AND SHAPE[2001 SMI] Shape matching similarity measures and algorithms[2002 PAMI] Shape matching and object recognition using shape contexts[2004 PR] Review of shape representation and description techniques[2006 PAMI] Integral Invariants for Shape Matching[2008] A Survey of Shape Feature Extraction Techniques
33. SIFT
關于SIFT,實在不需要介紹太多,一萬多次的引用已經說明問題了。SURF和PCA-SIFT也是屬于這個系列。後面列出了幾篇跟SIFT有關的問題。
[1999 ICCV] Object recognition from local scale-invariant features[2000 IJCV] Evaluation of Interest Point Detectors[2003 CVIU] Speeded-Up Robust Features (SURF)[2004 CVPR] PCA-SIFT A More Distinctive Representation for Local Image Descriptors[2004 IJCV] Distinctive Image Features from Scale-Invariant Keypoints[2010 IJCV] Improving Bag-of-Features for Large Scale Image Search[2011 PAMI] SIFTflow Dense Correspondence across Scenes and its Applications
34. SLAM
Simultaneous Localization and Mapping, 同步定位與建圖。
SLAM問題可以描述為: 機器人在未知環境中從一個未知位置開始移動,在移動過程中根據位置估計和地圖進行自身定位,同時在自身定位的基礎上建造增量式地圖,實作機器人的自主定位和導航。
[2002 PAMI] Simultaneous Localization and Map-Building Using Active Vision[2007 PAMI] MonoSLAM Real-Time Single Camera SLAM
35. Texture Feature
紋理特征也是物體識别和檢索的一個重要特征集。
[1973] Textural features for image classification[1979 ] Statistical and structural approaches to texture[1996 PAMI] Texture features for browsing and retrieval of image data[2002 PR] Brief review of invariant texture analysis methods[2012 TIP] Color Local Texture Features for Color Face Recognition
36. TLD
Kadal創立了TLD,跟蹤學習檢測同步進行,達到穩健跟蹤的目的。他的兩個導師也是大名鼎鼎,一個是發明MSER的Matas,一個是Mikolajczyk。他還創立了一個公司TLD Vision s.r.o. 這裡給出了他的系列文章,最後一篇是剛出來的PAMI。
[2009] Online learning of robust object detectors during unstable tracking[2010 CVPR] P-N Learning Bootstrapping Binary Classifiers by Structural Constraints[2010 ICIP] FACE-TLD TRACKING-LEARNING-DETECTION APPLIED TO FACES[2012 PAMI] Tracking-Learning-Detection
37. Video Surveillance
前兩篇是兩個很有名的視訊監控系統,裡面包含了很豐富的資訊量,比如CMU的那個系統裡面的背景模組化算法也是相當簡單有效的。最後一篇是比較近的綜述。
[2000 CMU TR] A System for Video Surveillance and Monitoring[2000 PAMI] W4-- real-time surveillance of people and their activities[2008 MVA] The evolution of video surveillance an overview
38. Viola-Jones
Haar+Adaboost的弱弱聯手,組成了最強大的利器。在OpenCV裡面有它的實作,也可以選擇用LBP來代替Haar特征。
[2001 CVPR] Rapid object detection using a boosted cascade of simple features[2004 IJCV] Robust Real-time Face Detection
六、 結束語
曆時一個多月,終于用業餘時間把這些資料整理出來了,總算了卻了一塊心病,也不至于再看着一堆資料發愁了。以後可能會有些小修小補,但不會有太大的變化了。萬裡長征走完了第一步,剩下的就是了解和消化了。借新浪ishare共享出來,希望能夠對你的科研也有一定的幫助。最後簡單統計一下各個年份出現的頻率。
文章總數:3722012年: 102011年: 202010年: 202009年: 142008年: 182007年: 132006年: 142005年: 92004年: 242003年: 222002年: 212001年: 212000年: 231999年: 101998年: 221997年: 81996年: 91995年: 91994年: 71993年: 51992年: 111991年: 51990年: 61980-1989: 221960-1979: 9