中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

下面介紹面向視訊分類的深度學習方法。深度卷積神經網絡在圖像分類取得成功後，研究人員就希望把它推廣到視頻分類中。但這不是一件很容易的事，一個原因是缺乏足夠的訓練資料。為此，谷歌和斯坦福的研究人員開發了 Sports-1 M 資料庫，包含 100 萬段視訊，有 487 類各種各樣的運動，這是一個相當大的資料庫。同時他們改進了傳統卷積神經網絡，用于處理視訊序列，提出在不同階段進行特征的融合，這裡圖中給出了 Late Fusion、Early Fusion、Slow Fusion 三種政策，其中 Slow Fusion 效果最好。

接着他們利用 Sports-1 M 這個資料庫來訓練自己開發的網絡。一個值得關心的問題是深度學習獲得了什麼樣的特征，下圖給出學習到的三維，大家可以看到，一閃一閃的，有一些彩色的動态邊緣。但這個方法在傳統 UCF 資料庫測試結果并不高，低于傳統非深度學習的方法。是以，研究人員就在想有沒有更好的方法。

下面講兩個非常有效的視訊深度學習模型。第一個工作是 C3D 模型 , 該模型把 VGG 網絡的濾波器從二維推廣到三維，增加的一維對應于時間。我們知道 VGG 網絡中有大量 3×3 的濾波器，C3D 模型把 3×3 的濾波推廣到 3×3×3。這個網絡在實際視訊分類中取得了很好的效果。

另一個工作，牛津大學的雙流網絡 Two Stream。該方法把光流也看成圖像，然後利用一個流 CNN 來處理光流圖像；另外一個流處理 RGB 圖像。這個方法充分利用了 CNN 對 2 維信号的強大處理能力，在 UCF 資料庫上取得了 88% 的識别率，相當不錯。

我們知道在傳統非深度學習方法中，運動軌迹特征取得了很好的效果，這啟發我們能夠把運動軌迹也考慮到深度建模中來，或者說把原來運動軌迹特征和深度神經網絡做結合，發揮二者的強項。運動軌迹可以對運動物體進行跟蹤，并強調運動顯著性區域。卷積神經網絡強在它能夠提取通過多層處理語義非常強的特征，這些特征要比我們傳統的 HoG、 HoF 能力強。這就提示我們可以沿着運動軌迹提取卷積特征。

具體怎麼做結合？如圖所示，左邊參照傳統方法提取光流和運動軌迹，右邊利用卷積神經網絡抽取視訊的深度特征。抽完特征後沿着這個運動軌迹把這些卷積特征進行區域分割、編碼和池化。當然，這裡還有一個問題就是如何訓練神經網絡，我們采取類似雙流網絡的方法，但細節上講又對其做了改進。

在實際試驗中，我們發現卷積特征是非常稀疏的，而且和運動區域是顯著相關的；我們還發現編碼時引入一些正則化策略和使用不同層的多尺度特征，對提升識别率有幫助。這個方法在 UCF 資料庫上取得了 91.5% 的識别率，在當時是最高的。我們這個工作發表在 CVPR 2015。

中國人工智能學會通訊——基于視訊的行為識别技術 1.5 基于深度學習的視訊識别方法

繼續閱讀

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述