天天看點

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

下面介紹面向視訊分類的深度學習方 法。深度卷積神經網絡在圖像分類取得 成功後,研究人員就希望把它推廣到視 頻分類中。但這不是一件很容易的事, 一個原因是缺乏足夠的訓練資料。為此, 谷歌和斯坦福的研究人員開發了 Sports-1 M 資料庫,包含 100 萬段視訊,有 487 類各種各樣的運動,這是一個相當大的 資料庫。同時他們改進了傳統卷積神經 網絡,用于處理視訊序列,提出在不同 階段進行特征的融合,這裡圖中給出了 Late Fusion、Early Fusion、Slow Fusion 三種政策,其中 Slow Fusion 效果最好。

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

接着他們利用 Sports-1 M 這個資料庫來訓練自己開發的網絡。一個值得關心 的問題是深度學習獲得了什麼樣的特征, 下圖給出學習到的三維,大家可以看到, 一閃一閃的,有一些彩色的動态邊緣。但 這個方法在傳統 UCF 資料庫測試結果并 不高,低于傳統非深度學習的方法。是以, 研究人員就在想有沒有更好的方法。

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

下面講兩個非常有效的視訊深度學習 模型。第一個工作是 C3D 模型 , 該模型把 VGG 網絡的濾波器從二維推廣到三維, 增加的一維對應于時間。我們知道 VGG 網絡中有大量 3×3 的濾波器,C3D 模 型 把 3×3 的濾波推廣到 3×3×3。這個網絡在 實際視訊分類中取得了很好的效果。

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

另一個工作,牛津大學的雙流網絡 Two Stream。該方法把光流也看成圖像, 然後利用一個流 CNN 來處理光流圖像; 另外一個流處理 RGB 圖像。這個方法充 分利用了 CNN 對 2 維信号的強大處理能 力,在 UCF 資料庫上取得了 88% 的識别 率,相當不錯。

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

我們知道在傳統非深度學習方法中, 運動軌迹特征取得了很好的效果,這啟 發我們能夠把運動軌迹也考慮到深度建 模中來,或者說把原來運動軌迹特征和 深度神經網絡做結合,發揮二者的強項。 運動軌迹可以對運動物體進行跟蹤,并強 調運動顯著性區域。卷積神經網絡強在 它能夠提取通過多層處理語義非常強的 特征,這些特征要比我們傳統的 HoG、 HoF 能力強。這就提示我們可以沿着運 動軌迹提取卷積特征。

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

具體怎麼做結合?如圖所示,左邊參 照傳統方法提取光流和運動軌迹,右邊 利用卷積神經網絡抽取視訊的深度特征。 抽完特征後沿着這個運動軌迹把這些卷 積特征進行區域分割、編碼和池化。當 然,這裡還有一個問題就是如何訓練神 經網絡,我們采取類似雙流網絡的方法, 但細節上講又對其做了改進。

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

在實際試驗中,我們發現卷積特征是 非常稀疏的,而且和運動區域是顯著相關 的;我們還發現編碼時引入一些正則化策 略和使用不同層的多尺度特征,對提升識 别率有幫助。這個方法在 UCF 資料庫上 取得了 91.5% 的識别率,在當時是最高的。 我們這個工作發表在 CVPR 2015。

繼續閱讀