天天看點

[行為識别] 2018 AAAI 行為識别論文解讀Action DetectionAction Localization

Action Detection

[1] ++Action Recognition from Skeleton Data via Analogical Generalization over Qualitative

Representations

Kezhen Chen*, Kenneth Forbus++

  • 思路: 從骨架圖中學習人的行為

[2] ++Action Recognition with Coarse-to-Fine Deep Feature Integration and Asynchronous Fusion

Weiyao Lin*, Yang Mi, Jianxin Wu, Ke Lu, Hongkai Xiong++

  • 提高精度的方法:
    • 生成更加具有針對性的動作特征,來更好的代表某個動作
    • 減少不同資訊流的異步性
  • 思路:
    • 由粗到細的網絡提取共享的深層特征,然後逐漸融合獲得更好的表征特征
    • 異步融合網絡,在不同時間融合來自不同流的資訊
  • 結果:
    • 無IDT的。UCF101上是94.3%,HMDB51是69.0%
    • 有IDT的。UCF101上是95.2%,HMDB51上是72.6%

[3] ++Cooperative Training of Deep Aggregation Networks for RGB-D Action Recognition

Pichao Wang*, Wanqing Li, Jun Wan, Philip Ogunbona, Xinwang Liu++

  • 網絡結構:該篇文章針對的是RGB-D圖像,是以并沒有細看~
    [行為識别] 2018 AAAI 行為識别論文解讀Action DetectionAction Localization
  • 思路:
    • 在RGB-D的視覺特征和深度特征上訓練c-ConvNet卷積網絡
    • 通過聯合ranking loss和softmax loss能增強深度可分離特征的學習,也就是可以學到更加具有區分性的深度特征
  • 實驗結果
    • ChaLearn LAP IsoGD: 44.8%
    • NTU RGB+D Dataset:89.08%
    • SYSU 3D HOI dataset: 98.33%

[4] ++Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature

Extraction for Human Action Recognition

Yang Du, Chunfeng Yuan*, Weiming Hu, Hao Yang++

  • 簡介:這篇文章是中科院自動化所提出來的,一種針對行為識别的特征生成的方法。傳統的手寫特征要求規則苛刻,而深度學習提取特征的方法需要大量的标記資料。文章提出的 Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map(NOASSOM)是一種折中的考慮。
  • 思路:論文的主要貢獻點
    • 添加一個非線性正交圖層使得NOASSOM能處理非線性的資料,而且通過核技巧可以避免定義具體非線性正交圖。
    • 修改ASSOM的損失函數,使得每個輸入樣本都被用來單獨的訓練模型
    • 提出一個階層化的NOASSOM,能提取更具代表性(區分性,獨特性)的特征
  • 實驗結果:
    • HMDB-51上: NOASSOM+iDT,69.3%
    • UCF-101上: NOASSOM+iDT,93.8%
    • KTH上:NOASSOM+FV,98.2%

[5] ++SAP: Self-Adaptive Proposal Model for Temporal Action Detection based on Reinforcement

Learning

Jinjia Huang, Nannan Li, Ge Li*, Ronggang Wang, Wenmin Wang++

  • 簡介:北京大學深圳研究所學生院,行為檢測文章。作者認為從人類認知來看,行為檢測應該是分為兩個部分,第一部分是粗定位,第二部分是精修。是以作者提出SAP,自适應的行為檢測方法。
  • 網絡結構
    [行為識别] 2018 AAAI 行為識别論文解讀Action DetectionAction Localization
  • 思路:先周遊整個視訊,發現一些行為記錄(label),來學習一個代理。利用強化學習,特别是Deep Q-Learning 算法來學習代理的決策政策。
  • 實驗結果:
    • THUMOS‘14上,27.7%
  • 開源代碼:https://github.com/hjjpku/Action_Detection_DQN

[6] ++Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Sijie YAN*, Yuanjun XIONG, Dahua LIN, xiaoou Tang++

  • 簡介:港中文湯曉鷗實驗室,從論文題目可以知道,這篇文章設計一種基于骨架圖做行為識别的空間時間卷積網絡。傳統的方法是通過手工制作或者周遊規則來模組化骨架,這樣得到的結果不僅代表性有限,而且泛化能力比較差。作者提出的ST-GCN能自動從資料中學習時間和空間的模型。
  • 網絡結構
[行為識别] 2018 AAAI 行為識别論文解讀Action DetectionAction Localization
  • 思路:
    • 在視訊上先對每一幀做姿态估計(Kinetics 資料集上文章用的是OpenPose),然後可以建構出一個空間上的骨架時序圖。
    • 然後應用ST-GCN網絡提取高層特征
    • 最後用softmax分類器進行分類
  • 實驗結果:
    • Kinetics dataset: 30.7%
    • NTU-RGB+D : 在cross-subject(X-Sub)和cross-View(X-View)上表現是81.5%,88.3%
  • 開源代碼:https://github.com/yysijie/st-gcn

[7] ++Spatio-Temporal Graph Convolution for Skeleton Based Action Recognition

Chaolong Li*, Zhen Cui, Wenming Zheng, Chunyan Xu, Jian Yang++

[8] ++T-C3D: Temporal Convolutional 3D Network for Real-time Action Recognition

LIU KUN, Wu Liu*, Chuang Gan, Mingkui Tan, Huadong Ma++

[9] ++Unsupervised Deep Learning of Mid-Level Video Representation for Action Recognition

Jingyi Hou*, Xinxiao Wu, Jin Chen, Jiebo Luo, yunde Jia++

[10] ++Unsupervised Representation Learning with Long-Term Dynamics for Skeleton Based Action

Recognition

Nenggan Zheng, Jun Wen, Risheng Liu*, liangqu Long, Jianhua Dai, Zhefeng Gong++

[11] ++Multimodal Keyless Attention Fusion for Video Classification

Xiang Long*, Chuang Gan, Gerard De melo, Xiao Liu, Yandong Li, Fu Li, Shilei Wen++

  • 簡介:清華大學論文,根據題目,Multimodal Keyless 可以知道,這篇文章采用了多模态的方式。而且走的是RNN(LSTM)的路線。
  • 思路:Multimodal Representation意思是多模式表示,在行為識别任務上,文章采用了視覺特征(Visual Features,包含RGB特征 和 flow features);聲學特征(Acoustic Feature);前面兩個特征都是針對時序,但是時序太長并不适合直接喂到LSTM,是以作者采用了分割的方法(Segment-Level Features),将得到的等長的Segment喂到LSTM。
  • 網絡結構
[行為識别] 2018 AAAI 行為識别論文解讀Action DetectionAction Localization
  • 實驗結果:
    • 特點:該文章實驗在多個資料集上,文章稱魯棒性比較好。
    • UCF101上,最高94.8%
    • ActivityNet上,最高78.5%
    • Kinetics上,Top-1:77.0%,Top-5:93.2%
    • YouTube-8M [email protected],60K Valid:80.9%,Test:82.2%

Action Localization

[12] ++Exploring Temporal Preservation Networks for Precise Temporal Action Localization

Ke Yang*, Peng Qiao, Dongsheng Li, Shaohe Lv, Yong Dou++

  • 簡介:這篇文章是 楊科大佬的文章。Temporal Preservation Network,TPC,時序保留網絡。
  • 思路:這篇文章是在CDC網絡的基礎進行改進的,CDC最後是采用了時間上上采樣,空間下采樣的方法做到了 per-frame action predictions,而且取得了可信的行為定位的結果。但是在CDC filter之前時間上的下采樣存在一定時序資訊的丢失。作者提出的TPC網絡,采用時序保留卷積操作,這樣能夠在不進行時序池化操作的情況下獲得同樣大小的感受野而不縮短時序長度。
  • TPC 時序保留卷積:
[行為識别] 2018 AAAI 行為識别論文解讀Action DetectionAction Localization
  • 實驗結果:THUMOS’14上,28.2%

<個人網頁blog已經上線,一大波幹貨即将來襲:https://faiculty.com/>

繼續閱讀