论文链接
简介
此前,大量研究工作通过将CNN与不同的时序网络模型结合来实现时空域表示,这也意味着会存在因交替时间与空间信息的学习带来的大量计算开销,大量的参数与浮点数计算也使得网络难于收敛,且易过拟合。
由此自然的想到嵌入时间信息到空间信息中进行联合学习,此文提出的时间交错网络(TIN)正式通过交错过去到未来的空间信息,或是交错空间变化下的temporal信息,来实现融合两个域内的信息。
TIN理论上与标准时间卷积网络(r-TCN)是同等的,且TIN保持了输入特征图的空间尺寸,也就意味着在网络任意位置都可接入。
- 输入的channel-wise特征分为多个group,获取相邻帧的偏移于权重来混合时间信息。
- 通过shift操作并在时间维度使特征交错开,从而将学习到的偏移应用于对应的group。
- 串联特征并在时间维度上于学习的权重进行累加。
TIN模块可以捕捉到长范围的时间关系,并适用于不同采样率的数据集。group-wise的偏移也倾向于在不同时间戳上融合更多的时间信息。
Exhaustive
experiments further demonstrate the proposed TIN gains 4%
more accuracy with 6x less latency, and finally be the new
state-of-the-art method. Especially, TIN performs as the core
architecture in the 1
st solution of ICCV19 - Multi Moments
in Time challenge.
相关工作
视频理解
在静态图片取得巨大成果的CNN,在引入额外的时间维度后增大了数据复杂度和网络参数的浮点数运算以及训练难度。
可变形时序建模
DCNv1和DCNv2显著提升语义分割和物体检测的效果,Spatial Transformer Networks使用全局仿射变换来学习平移不变与旋转不变的特征表达。TSM提出基于TSN在时序维度上变化特征图。本文依此提出一种可变的变换操作,以适应特定的数据集和提取帧的特定分布。
自注意力机制
self-attention最早于机器翻译领域和其他NLP任务中提出,可以理解为一种使用所有位置上加权和来计算同一个位置上的上下文信息的方法。而后,自注意力也被运用于图像分类,视频分类,物体检测和实例分割来获取长期依赖性。
TIN
Intuition
联合学习时间和空间特征与其带来的巨大计算耗费的trade-offs一直存在,之前的工作focus on通过另外的时间维度来扩展2D CNN表示(时间卷积网络的提出)。静态的时序感受野降低计算成本的同时野丢失了多层空间信息,一个动态的时间感受野对于联合嵌入时间信息于空间信息中是至关重要的。
形变位移模块
OffsetNet
WeightNet
用于计算Eg,主要分为两部分:
- 卷积层(1D卷积层的kernel size为3,kernel数量等于group数量)
-
sigmoid and rescale module(输出rescale到(0,2))
初始卷积层bias:0,初始output:1.0
时序可分帧采样(Differentiable Temporal-wise Frame Sampling)
Temporal-wise Frame Sampling
此步骤主要是进行线性插值,最终所有的移动或者未移动的channel会串联得到特征图V(与输入的特征图U具有相等size)
Temporal Extension
部分特征可能被移出而变为0,进而在训练阶段损失梯度。输入范围是[1, T],为了减轻这个现象带来的影响,设置一个buffer来存储处于(0,1)与(T,T+1)间隔中被移出的特征。超出T+1与小于0的部分会被置0。
Temporal Attention
特征图乘以权重E之后再串联于V,由于两端的特征被移出,会加入注意力机制来re-weight特征并更好的获取长期信息。
实验部分
对2D CNN baseline和TSM进行定量分析,在Something(V1&V2)数据集上与SOTA进行对比。
使用的数据集:Something-Something(V1&V2), Kinetics-600(600类的30k验证集视频与392k训练视频), UCF101, HMDB51, Multi-Moments in Time, Jester.
Something-Something V1数据集比较结果:
TIN,TSM与2D baseline TSN的比对结果:
Multi Moments in Time验证集上的mAP:
精度与参数和浮点数运算的trade-offs如图:
时空域表示学习中的Temporal Models
时间模型依赖于时间相关的状态与sensor变量如下:
Xt:时间t下的不可直接观测状态集合
Et:时间t下的可观测的迹象变量
Markov假设: Xt依赖于X0:t-1的有限子集
First-order Markov过程: P(Xt|X0:t-1) = P(Xt|Xt-1)
Second-order Markov过程:P(Xt|X0:t-1) = P(Xt|Xt-2,Xt-1)
Sensor Markov假设:P(Et|X0:t, E:0:t-1) = P(Et|Xt)
Stationary过程:对于所有固定t下的转移方程P(Xt|Xt-1)与sensor模型P(Et|Xt)
Dynamic Bayesian Networks vs. Hidden Markov models
隐马尔可夫模型(HMM)实际上是一个单变量的动态贝叶斯网络(DBN),每一个离散的DBN是一个HMM。
DBN是疏散的,相比HMM具有指数级减少的参数量。
Spatio-temporal Model
时空模型基本式如下:
> y(s, t) = µ(s, t) mean structure + e(s, t) error structure = x(s,t)β(s,t) regression + w(s,t) spatiotemporal RE + ϵ(s,t) Error
最简单的时空模型,是假设观察不依赖空间和时间,如下
Optical Flow
RNN
LSTM
Temporal Convolution
C3D,etc.
Other Works
C3D
Learning spatiotemporal features for videos using 3D ConvNets
- 系统研究3D卷积的最优空间核长度
- C3D可以同时构造appearance与motion information,在多种视频分析任务中表现超过2D卷积
- 提出当前在视频分析benchmark中表现最好的方法(使用线性分类器的C3D特征)
- 3D ConvNets比2D ConvNets更适合时空特征学习
- 对于C3D,同类网络架构中,在所有层使用333的卷积核时表现最好
预测Motion与Appearance Statistics的视频自监督时空表达学习
文中提出的方法的网络架构如下图,骨干结构采用上文所述的C3D进行视频时空特征学习。
P3D Residual Network
- 深度3D CNN会导致大量计算耗费与存储指令
- 提出为3D CNN提供的回收利用off-the-shelf 2D网络
- 提出Pseudo-3D Residual Net(Sports-1M视频分类数据集相对3D CNN与frame-based 2D CNN分别提升5.3%与1.8%)
- 结合3D卷积与2D空间的卷积另加1D时间连接来降低计算成本,并集成于深度residual学习框架供视频表示学习
Video representation learning
- hand-crafted
- Space-Time interest Points
- Histogram of Gradient
- Histogram of Optical FLow
- 3D Histogram of gradient
- SIFT-3D
- deep-learning based methods
- stack CNN-based frame-level representations in a fixed size of windows -> leverage spatio-temporal convolutions for learning video representation
- two-stream architecture[6]
- multi-granular structure
- convolutional fusion
- key-volume mining
- temporal segment networks
- LSTM-RNN(modeling temporal dynamics in videos)
- temporal pooling and stacked LSTM(combine frame-level representation and discover long-term temporal relationships)
- 3D CNN[7]
- 11-layer 3D CNN(C3D)[5]
- P3D
参考文献
[1] DESIGNING NEURAL NETWORK ARCHITECTURES
USING REINFORCEMENT LEARNING
[2] Temporal probability models
[3] Self-supervised Spatio-temporal Representation Learning for Videos
by Predicting Motion and Appearance Statistics
[4] Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani,
and Manohar Paluri. Learning spatiotemporal features with
3d convolutional networks. In ICCV, 2015.
[5] Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
[6] K. Simonyan and A. Zisserman. Two-stream convolutional
networks for action recognition in videos. In NIPS, 2014.
[7] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on
PAMI, 35, 2013.
[8] Structural-RNN: Deep Learning on Spatio-Temporal Graphs
[9] Black, Michael. (1999). Explaining Optical Flow Events with Parameterized Spatio-temporal Models. 1.
[10] Optical Flow Guided Feature: A Fast and Robust Motion Representation for
Video Action Recognition