天天看點

###《High-level event recognition in unconstrained videos》

Author:

Yu-Gang Jiang, Shih-Fu Chang

事件檢測的目标就是自動識别給定視訊序列中的感興趣事件。進行視訊事件檢測通常很困難,特别是在網絡中非限制的視訊。在非限制情況下,視訊品質可能很差,包括嚴重的相機移動,弱光,背景幹擾和遮擋等。但是,随着視訊數量的急劇增長,人們急需尋找一個有效的方法對視訊事件進行檢測識别。我們将探讨視訊事件檢測中常用的特征,模型,資料集以及評價标準。最後,給出視訊事件檢測中未來仍需探索的方向。

#@author:       gr
#@date:         2015-02-03
#@email:        [email protected]   
           

一、介紹

高層或者複雜事件在我們的定義中指的是在特定場景下發生的動态目标互動行為。兩種主要的事件包括活動事件和社會事件。前者包括做蛋糕,換輪胎等,後者有生日聚會,遊行等。視訊事件識别技術有許多應用,比如網絡視訊搜尋,消費者視訊管理,智能視訊廣告。

我們可以将視訊分類按複雜度進行劃分。運動是低級特征,它可以被應用在人類行為識别[1]中,它是一個目标的基礎屬性。接着還有活動或行為,它是一系列運動序列。它含有更多的語義資訊,也更複雜,可能是多個對象之間的互動行為。最後,便是對整個視訊複雜的事件識别,視訊序列包含的資訊更多,通常還會有一些幹擾資訊。當然,對視訊的語義了解也會變得更加困難。

視訊事件識别系統中有許多挑戰。最常見的問題就是計算得到的低層特征與語義之間的巨大鴻溝。現在的方法大多直接使用計算得到的特征直接進行分類。也就是說,這些分類器嘗試在特征與視訊事件标注的标簽之間建立聯系,但這種方法始終存在問題,因為我們知道目前的特征無法完全來表示視訊的語義資訊,這也導緻這些年視訊事件識别的進展很緩慢。

二、特征表示

特征在視訊分析中十分關鍵。好的特征可以對一些變化魯棒,使得在不同情況下的相同類别的事件可以被正确識别。主要可以利用兩種特征。一個是視覺,它可以描述目标的外觀資訊,場景設定,還可以捕捉運動資訊。另外一個是聽覺,可能包含音樂,背景聲音或者對話。這兩個方面都非常有用,許多研究都設計了視覺和聽覺兩方面的特征。

2.1 基于幀的外觀特征

基于外觀的特征是計算一個單獨幀的特征。他們不包含視訊序列的時間資訊,但它們被廣泛使用,因為它們比較容易計算,并且可以獲得相對較好的結果。我們把現在的工作分為局部特征和全局特征,我們将在下面分别讨論。

2.1.1 局部特征

一個視訊幀可以使用具有判别的局部特征表示。局部特征的提取包括兩個步驟:檢測和描述。檢測是确定平穩圖像塊的過程。實際上,對圖像塊進行均勻或者稠密采樣并儲存下特征,可以減少計算量,并且需要的存儲空間更小。

在許多檢測算法中,使用最多的是高斯差分(DoG)[2],它檢測出中心區域不同于周圍區域的點,其它使用比較多的是Harris-Laplace,Hessian,MSERs(maximally stable extremal regions)。Harris和Hessian主要是檢測角點,MSER主要進行區域檢測。

一旦局部塊确定之後,下一步就是對這個區域進行描述,使得描述子可以對旋轉,尺度,視角,光照變化魯棒。由于描述子是從小的區域而不是整幀圖像計算得到的,是以它一定程度上可以降低遮擋和背景幹擾帶來的影響。

人們設計了許多描述子。最著名的就是尺度不變特征變化(SIFT)[2],它把圖像塊劃分到相同大小的網格,每個風格使用梯度方向直方圖描述。SIFT的主要思想是一個圖像塊由它的主梯度方向表示,這使得SIFT具有良好的旋轉不變性。許多視訊分析系統[3]裡都使用了SIFT特征。為了提高計算效率,Bay等人提出了SURF[4]。

此外,還有一些比較流行的描述子。梯度方向直方圖(HOG)[5]由Dalal和Triggs提出,它主要擷取圖檔的邊界分布資訊。局部二值模式(LBP)[6]是另外一個紋理特征,它使用了像素和鄰域像素比值的二值形式來标注每個像素。

2.1.2 全局特征

在早些時候,一些系統中使用全局表示,提取圖像的全局顔色,紋理或邊界資訊。使用最多的是姿色直方圖,顔色矩,Gabor紋理[7]。大多數這些全局特征采用基于網格的表示,這樣就加入了場景的空間分布資訊。這些特征在每個網格内單獨計算,最後把每個網格的特征連接配接起來形成最終的表達。這個簡單的政策在許多圖檔/視訊分類工作上都有效。

2.3 音頻特征

音頻特征對視訊分析來說很有價值,特别是當視訊是在現實環境下獲得的。美爾頻率倒譜系數(MFCC)是一個在聲音分類上使用最多的音頻特征。MFCC表示了音頻信号的短期能量波譜,它是基于長期的非線性美爾頻率的線性餘弦變換。Xu等人[8]使用了MFCC和另外一個音頻特征叫做ZCR(zero crossing rate)。哨聲和觀衆喝彩是檢測犯規和得分的重要依據。Baillie和Jose[9]使用了類似的架構,但隻使用了MFCC特征去進行基于聲音的事件檢測。

2.5 Bag of features

2.5.1 BoW

直接使用特征比對即使在有索引的情況下,計算代價還是很高。

這種問題可以使用BoW解決。受文本進行中詞袋模型的啟發,可以将整個視訊看作一個\'document\',将特征聚類的中心點作為一個\'word\'。

2.6 summary

1. 多特征融合

單獨使用一個特征對于事件識别來說是不夠的,需要使用多特征(frame-based, spatio-temporal, acoustic)融合的方法。

2. BoW

BoW現在是最好的事件檢測模型,但它沒有能力去獲得深層語義資訊,不能了解動作或者互動。其次,它丢失了元件的時空資訊。除此之外,在将原始特征轉換為單詞時的量化也是一個問題。

三、識别方法

給定了特征表達,事件識别可以通過不同的分類器實作。這是一個典型的機器學習過程。先用标注好的視訊進行模型訓練,再用訓練好的模型對新視訊進行事件識别。我們将介紹核分類器,主要讨論SVM,使用最多的事件識别分類器;圖方法,它可以明确地在低級特征事件之間模組化。

3.1 核分類器

近年來許多系統都在使用核分類器[11]。通過核方法,線性分類器可以被應用來進行非線性分類。在許多核方法分類器中,SVM是大家使用最多的,它可以在許多工作中獲得較好的性能,包括視訊事件識别。事件識别經常模組化成基于低層表達的一對多模式,也就是針對每個事件訓練一個二分類SVM。給定測試視訊的特征向量x,二分類SVM的決策函數定義如下:

\[f(x)= \sum_i\alpha_i y_i K(x_i, x)-b

\]

其中K(x_i,x)是核函數對第i個訓練視訊和測試樣例x的輸出結果。y_i是視訊x_i的标簽。如何選擇核函數對分類性能影響很大。對于SIFT的BoW表示,已經證明 χ^2高斯核是最合适的。

SVM的性能和一些參數有關。參數的值主要和資料的分布有關,不同工作取得值也不一樣。如何選取合适的參數,一般采用交叉驗證,評估範圍中的參數,并選取性能最好的。

直接使用分類器在某些情況可以滿足要求,但它們不能對了解複雜事件的語義結構提供幫助。比如事件“換車輪”,明顯包含如下幾個子類,“打開汽車行李箱”,“使用扳手”,“頂起汽車”等等。詞包表達把資訊放到一個長特征向量中,并不能提供這些語義結構資訊。采用一個基于概念的分層分類架構可以加入這種結構資訊。最簡單的方法就是采用兩層SVM。第一層去檢測語義概念,第二層基于第一層的模型輸出去識别事件類别。

3.2 圖模型

過去一些年裡人們有許多工作是利用圖模型處理序列資料。大多數方法組合機率和圖理論去尋找序列資料的結構資訊。這些方法可以被分為兩類:直接圖模型和間接圖模型。前者中包括隐馬爾可夫模型(HMMs),貝葉斯網(BNs),後者包括馬爾可夫随機場(MRFs),條件随機場(CRFs)。

最簡單的直接圖模型是HMM,采用狀态空間模組化,其中目前狀态的結果隻依賴于它的上一狀态。Yamato等人[12] 的工作就是在行為和事件識别中使用有向圖,其中作者提出了HMMs進行識别網球事件。在他們的方法中,他們先利用背景差分并二值化提取人物,在8 ×8的圖像塊中提取特征并表示每幀圖像。這些特征之後轉換成符号序列,其中每個符号表示輸入圖像序列中的關鍵幀。對每個行為,使用前面的符号序列訓練一個離散HMM。

四、應用需求

4.1 事件定位與描述

1. 時空定位
2. 文本描述

4.2 資料量與效率

五、評價标準

現在已經有許多關于行為識别的資料集,而事件識别中的活動比行為識别中的要複雜,常見的行為識别資料集有:

KTH,

Weizmann,

IXMAS,

UCF11,

UCF Sports,

UCF50 action dataset,

UCF101 - Action Recognition Data Set,

the Hollywood Movie dataset ,

Human Motion Database (HMDB) .

VIRAT Video Dataset: The dataset is designed to be realistic, natural and challenging for video surveillance domains in terms of its resolution, background clutter, diversity in scenes, and human activity/event categories than existing action recognition datasets.

5.1 公共資料集

1. TRECVID MED datasets

受分析網絡中視訊需求的需要,NIST 在2010時定義一個新的工作,多媒體事件檢測(MED)。每年會更新或擴充資料集。MED2010中隻定義了3個事件。在MED2011中事件數增長到15類。現在版本的MED标注隻标注到視訊級别,MED的任務也是進行視訊級的事件分類。

2. Columbia consumer video (CCV) dataset

在2011年,CCV從網絡上收集資料,這些資料通過普通人收集,沒有專業的後期處理。它們很多是網絡分享的視訊。CCV中定義了20個類,包括物體(例如,貓,狗),場景(沙灘,操場),體育事件(棒球,滑雪),社會活動事件(畢業,音樂會)。CCV中的也是在視訊級上标注。類别根據Kodak資料集進行定義。

3. Kodak consumer video dataset

Kodak資料集由Eastman Kodak公司的100名員工收集。一共有1358個視訊,25個類别。與MED和CCV資料集比較,Kodak資料集的缺點是類别間變化不夠大。許多視訊都是在相同場景下捕獲的,這可能導緻過拟合問題。

除此之外,還有許多其它資料集可以用來進行視訊分析,比如LabelMe和MCG-WDBV。LabelMe可以讓我網絡使用者去标注事件類别,提綱或者運動物體的時空位置。但是由于标注過程需要大量時間,而且沒有任何回報,是以到目前為止,LabelMe的數量和類别都很有限,很難拿來進行視訊事件分析。MCG-WEBV是中科院整理的Youtube視訊集,包含234414個視訊,在一些主題事件上進行标注,如“加沙的沖突”,這隻通過視訊内容分析很難處理。目前使用這個資料集的工作主要是視訊主題跟蹤

5.2 評價矩陣

事件檢測的結果可以有許多評價标準,主要由應用的需求來決定。我們現在考慮最簡單、使用最多的情況,就是判斷一個視訊中是否存在某事件。這就是分類問題:給定一個興趣事件,識别系統可以對每個輸入視訊計算置信得分。

平均精确度(AP)和規一化檢測代價(NDC)是使用最廣的事件檢測性能評估标準。AP和NDC的輸入都是視訊根據置信得分排序的清單。下面我們将分别介紹AP和NDC。

1. Average Precision

AP是在一個precision-recall曲線下的近似區域,反映了測試視訊的排序品質。用R表示資料集中相關視訊的數量,對任何索引j,\(R_j\)表示相關視訊在最高的第j個清單中的數量。AP定義如下:

\[AP = \frac{1}{R}\sum_j \frac{R_j}{j} \times I_j

\]

其中,如果第j個視訊是相關的,\(I_j = 1\);否則為0.

2. Normalized detection cost

NDC是TRECVID MED的官方評估矩陣。不同于AP評估排名清單的品質,NDC需要一個識别門檻值。置信得分在門檻值之上的視訊被認為是相關的。給定一個門檻值,首先定義\(P_{MD}\)(漏檢率)和\(P_{FA}\)(誤報率):

\[P_{MD} = \frac{misses}{targets}

\]

\[P_{FA} = \frac{false alarms}{total videos - targets}

\]

其中,\(targets\)是資料集中包含目标事件的總數。那麼NDC可以如下計算:

\[NDC = \frac{C_{MD} \times P_{MD} \times P_T + C_{FA} \times P_{FA} \times (1 - P_T)}{min(C_{MD} \times P_T, C_{FA} \times (1 - P_T))}

\]

其中,\(P_T\)是事件的先驗機率(如,\(\frac{targets}{total videos}\));\(C_{MD}\)和\(C_{FA}\)分别是\(P_{MD}\)和\(P_{FA}\)的權重參數。

3. Partial area under DET curve
4. spatio-temporal localization
5. Multimedia event recounting

5.3 讨論會和最近的方法

六、未來方向

1. 更好的低層特征

有許多工作緻力于設計更好的低層特征,代表的就是SIFT, STIP,與傳統的全局特征,比如顔色和紋理,它們極大地提高了事件識别率。但很明顯這些特征還不能充分地表示複雜事件。傳統的基于灰階的特征在圖檔和視訊進行中已經遇到了瓶頸。

為了取代手動特征,一些研究已經使用深度學習方法自動學習特征。這些自動學習的特征已經取得了相同甚至超過人工特征。除了視覺特征外,聲音也是一個重要的特征。融合聲音和視覺特征可能會進一步提高效果。

2. 更好的模型

大多數現在的系統都是對視覺特征進行BoW表示并利用SVM分類,但這個方法經過多年的研究優化,已經達到目前最高的準确率,進一步提升的空間非常有限。那有沒有更有前景的方案?

雖然解決方法不明确,但近期有此在神經網絡的研究提高了準确率。這些方法已經在手寫字元識别,圖檔分類方面取得了巨大的突破。Xu等人[16]提出了一個在神經網絡更具判别性的特征,他們在最大池化之後按照鄰域資訊進行編碼。Gan等人[17]提出一個深度卷積神經網絡,使用關鍵幀作為輸入進行視訊級的事件檢測。通過反向傳播,作者利用顯著圖找到對這個事件最重要的關鍵幀。為了加入視訊中的運動資訊,Andrej等人[18]讨論了幾種融合技術,可以利用将幾幀作為輸入到神經網絡,也可以将兩幀分别輸入兩個網絡,然後在最後全連接配接層進行連接配接,這樣,神經網絡就可以在發現幀間的運動資訊。

除此之外,可以利用先驗知識對現在的模型進行優化。對于人類來說,外部知識對感覺來說同樣重要,我們相信這對設計魯棒的識别系統很重要。雖然目前基于先驗的模型沒有取得巨大進展,但這個方向仍然值得探索。

3. 事件上下文和屬性

複雜事件通常可以被進一步分解成一些概念的序列(行為,場景,目标,聲音等等),它們更容易被識别,因為他們語義粒度更小,是以可以通過視覺或聲音區分開來。一旦我們擁有很多的上下文概念檢測器,檢測結果就可以用來進行事件推理。這方面目前也有許多研究。在計算機視覺領域,最近有一種基于屬性的方法被應用于許多視覺識别工作。但還要注意一些問題:是否是手動指定概念或者屬性(監督學習),還是從目前的詞彙表中自動生成(非監督學習);需要多少個概念或屬性;是否存在一個全局的詞彙表可以應用到任何領域;怎樣可靠地檢測這些概念,如何在事件和概念之間模組化。這些問題都需要深入的探索。雖然這看起來是一個難題,但一旦這些問題得到解決,識别複雜事件就會變得更容易。

4. Ad hoc事件檢測

Ad hoc事件檢測是指在目前可用樣例較少,先驗知識較少的情況下進行事件檢測。視訊檢索方面需要這種技術。使用者提供一個或幾個感興趣事件,系統需要在有限時間擷取相關的視訊。這種問題經常被叫做"one-shot"或者"few-shot"學習。很明顯基于先驗的方法并不能解決這個問題。監督學習分類器也由于太少的樣例無法使用。可以利用文本中的資訊去在标注和未檢測的概念間産生語義相似性,這可以産生新的概念。如果視訊通過使用概念進行離線索引,未知事件的線上檢索和檢測便變得可能,因為相同僚件的視訊很可能擁有相似的概念分布。也就是說,事件檢測可以通過測量查詢樣例視訊和資料庫視訊之間的概念向量相似性解決。這把Ad hoc事件檢測問題轉變成最近鄰搜尋問題,其中可以通過哈希技術或索引技術實作高效實時的檢索。

5. 更好的事件重述(Better event recounting)

雖然很多應用都需要這樣的技術,但這方面的研究工作還是很有限。準确的視訊事件重述很具有挑戰性,它不僅需要高的内容識别率,還要一個有效地自然語言模型讓最後生成的描述盡可能地自然。識别大量的概念(有層次地組織)是一個很好的方法,但也存在問題。如何去修正這些概念間存在的誤檢問題。除此之外,在網絡上隻分析視訊内容并不足夠解決這個問題,有時分析網上視訊周圍的文字可以幫助我們。

6. 更好的資料庫

TRECVID MED雖然是一個很好的資料庫,但現在的事件個數隻有10-20個,比實際數量要少很多。一方面,這避免了多個事件在一個視訊共同存在。另一方面,很小的資料集得出的結果不具有一般性。是以有必要去建行一個覆寫更多數量事件的資料集,這對進一步提高事件檢測很有幫助。

七、結論

文中回顧了常見的重要主題,包括靜态基于幀的特征,時空特征,聲音特征,視覺-聲音融合表達,詞包特征,核分類器,圖模型,基于先驗技術和融合技術。還讨論一些常用應用要求問題,比如事件定位和重述。然後,我們讨論了目前的資料集和評估标準,總結目前在TRECVID取得最優性能系統的關鍵部件。最後,我們探讨了事件檢測中有前景的研究方向。