視訊識别，小，小，小綜述~

【胡扯】：最近一周一直在忙着做視訊識别的項目，前期對視訊完全小白，最近複現了cvpr 2018 上面的一篇文章，效果還行，下周把自己的思路加上網絡，進行訓練，看看效果如何，我想應該效果不錯，因為我是大佬呀~~~哈哈。這篇博文隻是一些簡單的綜述，換言之也是我這周的學習之旅，就做個總結吧。

一：資料集介紹

我們這裡主要介紹常用的大點的資料集，像KTH 這種小的，咱就不說了。

UCF 101 資料集

其實也沒啥介紹的，就是101種視訊，現在CVPR 最高的結果好像是>93.4% 效果還是不錯的。

官網：UCF101

使用方式：UCF101的處理與加載
HMDB51資料集

這個資料集最難，現在最高的識别率也就82%左右，其實我感覺主要資料量太少了，如果這個資料集能擴充，估計效果還行，有沒有小夥伴去幹這件事情呢，我的意思是隻針對這51種視訊，資料量（double kill、 triple kill、quadra kill、penta kill）原諒我是moba 遊戲粉呢。如果資料量充分，我想我後面介紹的幾種思路的結果應該可以更上一層樓。

官網：HMDB51
Kinetics資料集

這個資料集最重要，谷歌在youtube上搞的，相當于視訊屆的imagenet。衆所周知，imagenet訓練的參數拿過來遷移學習在大部分資料集上都能得到好的效果，哈哈，聰明的人大概就能猜出來這個資料集的妙用了吧。為什麼，因為它大呀，現在有600種類别了。詳細的自己去官網看吧。

官網：kinetics

二：主流方法

1：CNN+LSTM 方法

這個思路其實很樸素，在image caption中現在最先進的一類方法就是在這個加上attention model。

方法如下：

視訊識别，小，小，小綜述~
視訊嘛，說白了就是由很多圖檔組成的，隻是這些圖檔有個特點就是有很強的時序性，那麼這就好辦了啊，抽取特征，然後代入RNN 或者LSTM，最後進行預測，這個想法很直接，但是目前的效果不太好，不過這個時序的思想，可以借用。
2：3D-ConvNet
這個就是傳統的卷積上加了一維用于預測時序，以前的卷積核是這樣（Kxk),現在的卷積核是這樣（kxkxk）變成了三維的，最後一維就是時序，架構如下：

視訊識别，小，小，小綜述~

但是這個方法有個缺點就是參數特别巨大，而視訊這一塊的資料量不夠，也不能這麼說，就是被清洗幹淨的資料集太少了，希望有李飛飛那樣的大佬出來，出一個更大的資料集。

3 Two-stream

雙流型：

視訊識别，小，小，小綜述~

如上圖，視訊可以很自然的被分為空間部分和時間部分，空間部分主要對應單張圖像中的 appearance，傳遞視訊中描述的場景和物體的相關資訊。時間部分對應連續幀的運動，主要用最基本的光流法，有興趣的小夥伴可以去研究下，包含物體和觀察者（相機）的運動資訊，之後直接進行特征相連進行分類（這裡沒有融合，之後這篇文章的下文就進行了融合）。這篇文章是2014NIPS上發表的：

Two-Stream Convolutional Networks for Action Recognition in Videos

下面的圖是論文額架構，更加清晰：

視訊識别，小，小，小綜述~

4：3D-Fused two-strean

架構：

視訊識别，小，小，小綜述~

這個用3D convNet的融合政策不一定是最好的，相信這裡還有很多研究的機會。關于這個，大家可以仔細去看這篇文章。

Convolutional Two-Stream Network Fusion for Video Action Recognition

5：two-stream 3D-ConvNet

這個方法的思路也比較自然，結合了第二種結構和第三種結構，如圖：

視訊識别，小，小，小綜述~

把一段視訊分成n個K幀大小的視訊流，然後分别用兩個3D 卷積進行apperance 和光流進行特征抽取，在連接配接成一組新的特征，作為最後的識别特征，這個方法的缺點還是參數太多，咱們的資料集太小，容易過拟合，但是kinetics出來，很好的解決了這個問題，所有這個方法是現在最好的。

結尾

寫的不是太多，也不詳細，隻是粗略地整理了下思路。

思路點1：識别動作，無非就是時間與空間的協調性，如何處理這兩者的關系。

思路點2：兩者的融合問題。

思路點3：我感覺視訊裡的多餘動作如何進行有效隔離，這個是研究的重點。、

視訊動作識别的應用：

色情視訊過濾 (現在直播平台的色情主播呀）

暴恐視訊過濾

涉政視訊過濾

違規MD5庫 (這個我不太懂哎，有知道的，可以告訴我呀~~)

視訊識别，小，小，小綜述~

一： 資料集介紹

UCF 101 資料集

HMDB51資料集

Kinetics資料集

二： 主流方法

1：CNN+LSTM 方法

2：3D-ConvNet

色情視訊過濾 (現在直播平台的色情主播呀）

暴恐視訊過濾

涉政視訊過濾

違規MD5庫 (這個我不太懂哎，有知道的，可以告訴我呀~~)

一：資料集介紹

二：主流方法