天天看點

視訊識别,小,小,小綜述~

【胡扯】:最近一周一直在忙着做視訊識别的項目,前期對視訊完全小白,最近複現了cvpr 2018 上面的一篇文章,效果還行,下周把自己的思路加上網絡,進行訓練,看看效果如何,我想應該效果不錯,因為我是大佬呀~~~哈哈。這篇博文隻是一些簡單的綜述,換言之也是我這周的學習之旅,就做個總結吧。

一: 資料集介紹

我們這裡主要介紹常用的大點的資料集,像KTH 這種小的,咱就不說了。

  1. UCF 101 資料集

    其實也沒啥介紹的,就是101種視訊,現在CVPR 最高的結果好像是>93.4% 效果還是不錯的。

    官網:UCF101

    使用方式:UCF101的處理與加載

  2. HMDB51資料集

    這個資料集最難,現在最高的識别率也就82%左右,其實我感覺主要資料量太少了,如果這個資料集能擴充,估計效果還行,有沒有小夥伴去幹這件事情呢,我的意思是隻針對這51種視訊,資料量(double kill、 triple kill、quadra kill、penta kill)原諒我是moba 遊戲粉呢。如果資料量充分,我想我後面介紹的幾種思路的結果應該可以更上一層樓。

    官網:HMDB51

  3. Kinetics資料集

    這個資料集最重要,谷歌在youtube上搞的,相當于視訊屆的imagenet。衆所周知,imagenet訓練的參數拿過來遷移學習在大部分資料集上都能得到好的效果,哈哈,聰明的人大概就能猜出來這個資料集的妙用了吧。 為什麼,因為它大呀,現在有600種類别了。詳細的自己去官網看吧。

    官網:kinetics

    二: 主流方法

    1:CNN+LSTM 方法

    這個思路其實很樸素,在image caption中現在最先進的一類方法就是在這個加上attention model。

    方法如下:

    視訊識别,小,小,小綜述~
    視訊嘛,說白了就是由很多圖檔組成的,隻是這些圖檔有個特點就是有很強的時序性,那麼這就好辦了啊,抽取特征,然後代入RNN 或者LSTM,最後進行預測,這個想法很直接,但是目前的效果不太好,不過這個時序的思想,可以借用。

    2:3D-ConvNet

    這個就是傳統的卷積上加了一維用于預測時序,以前的卷積核是這樣(Kxk),現在的卷積核是這樣(kxkxk)變成了三維的,最後一維就是時序,架構如下:
    視訊識别,小,小,小綜述~

    但是這個方法有個缺點就是參數特别巨大,而視訊這一塊的資料量不夠,也不能這麼說,就是被清洗幹淨的資料集太少了,希望有李飛飛那樣的大佬出來,出一個更大的資料集。

    3 Two-stream

    雙流型:

    視訊識别,小,小,小綜述~

    如上圖,視訊可以很自然的被分為 空間部分和時間部分,空間部分主要對應單張圖像中的 appearance,傳遞視訊中描述的場景和物體的相關資訊。時間部分對應連續幀的運動,主要用最基本的光流法,有興趣的小夥伴可以去研究下,包含物體和觀察者(相機)的運動資訊,之後直接進行特征相連進行分類(這裡沒有融合,之後這篇文章的下文就進行了融合)。 這篇文章是2014NIPS上發表的:

    Two-Stream Convolutional Networks for Action Recognition in Videos

    下面的圖是論文額架構,更加清晰:

    視訊識别,小,小,小綜述~

    4:3D-Fused two-strean

    架構:

    視訊識别,小,小,小綜述~

    這個用3D convNet的融合政策不一定是最好的,相信這裡還有很多研究的機會。關于這個,大家可以仔細去看這篇文章。

    Convolutional Two-Stream Network Fusion for Video Action Recognition

    5:two-stream 3D-ConvNet

    這個方法的思路也比較自然,結合了第二種結構和第三種結構,如圖:

    視訊識别,小,小,小綜述~

    把一段視訊分成n個K幀大小的視訊流,然後分别用兩個3D 卷積進行apperance 和光流進行特征抽取,在連接配接成一組新的特征,作為最後的識别特征,這個方法的缺點還是參數太多,咱們的資料集太小,容易過拟合,但是kinetics出來,很好的解決了這個問題,所有這個方法是現在最好的。

    結尾

    寫的不是太多,也不詳細,隻是粗略地整理了下思路。

    思路點1:識别動作,無非就是時間與空間的協調性,如何處理這兩者的關系。

    思路點2:兩者的融合問題。

    思路點3:我感覺視訊裡的多餘動作如何進行有效隔離,這個是研究的重點。、

    視訊動作識别的應用:

    色情視訊過濾 (現在直播平台的色情主播呀)

    暴恐視訊過濾

    涉政視訊過濾

    違規MD5庫 (這個我不太懂哎,有知道的,可以告訴我呀~~)