下面介紹面向視訊分類的深度學習方 法。深度卷積神經網絡在圖像分類取得 成功後,研究人員就希望把它推廣到視 頻分類中。但這不是一件很容易的事, 一個原因是缺乏足夠的訓練資料。為此, 谷歌和斯坦福的研究人員開發了 Sports-1 M 資料庫,包含 100 萬段視訊,有 487 類各種各樣的運動,這是一個相當大的 資料庫。同時他們改進了傳統卷積神經 網絡,用于處理視訊序列,提出在不同 階段進行特征的融合,這裡圖中給出了 Late Fusion、Early Fusion、Slow Fusion 三種政策,其中 Slow Fusion 效果最好。
接着他們利用 Sports-1 M 這個資料庫來訓練自己開發的網絡。一個值得關心 的問題是深度學習獲得了什麼樣的特征, 下圖給出學習到的三維,大家可以看到, 一閃一閃的,有一些彩色的動态邊緣。但 這個方法在傳統 UCF 資料庫測試結果并 不高,低于傳統非深度學習的方法。是以, 研究人員就在想有沒有更好的方法。
下面講兩個非常有效的視訊深度學習 模型。第一個工作是 C3D 模型 , 該模型把 VGG 網絡的濾波器從二維推廣到三維, 增加的一維對應于時間。我們知道 VGG 網絡中有大量 3×3 的濾波器,C3D 模 型 把 3×3 的濾波推廣到 3×3×3。這個網絡在 實際視訊分類中取得了很好的效果。
另一個工作,牛津大學的雙流網絡 Two Stream。該方法把光流也看成圖像, 然後利用一個流 CNN 來處理光流圖像; 另外一個流處理 RGB 圖像。這個方法充 分利用了 CNN 對 2 維信号的強大處理能 力,在 UCF 資料庫上取得了 88% 的識别 率,相當不錯。
我們知道在傳統非深度學習方法中, 運動軌迹特征取得了很好的效果,這啟 發我們能夠把運動軌迹也考慮到深度建 模中來,或者說把原來運動軌迹特征和 深度神經網絡做結合,發揮二者的強項。 運動軌迹可以對運動物體進行跟蹤,并強 調運動顯著性區域。卷積神經網絡強在 它能夠提取通過多層處理語義非常強的 特征,這些特征要比我們傳統的 HoG、 HoF 能力強。這就提示我們可以沿着運 動軌迹提取卷積特征。
具體怎麼做結合?如圖所示,左邊參 照傳統方法提取光流和運動軌迹,右邊 利用卷積神經網絡抽取視訊的深度特征。 抽完特征後沿着這個運動軌迹把這些卷 積特征進行區域分割、編碼和池化。當 然,這裡還有一個問題就是如何訓練神 經網絡,我們采取類似雙流網絡的方法, 但細節上講又對其做了改進。
在實際試驗中,我們發現卷積特征是 非常稀疏的,而且和運動區域是顯著相關 的;我們還發現編碼時引入一些正則化策 略和使用不同層的多尺度特征,對提升識 别率有幫助。這個方法在 UCF 資料庫上 取得了 91.5% 的識别率,在當時是最高的。 我們這個工作發表在 CVPR 2015。