【PaperNotes】时间交错网络Temporal Interlacing Network

论文链接

简介

此前，大量研究工作通过将CNN与不同的时序网络模型结合来实现时空域表示，这也意味着会存在因交替时间与空间信息的学习带来的大量计算开销，大量的参数与浮点数计算也使得网络难于收敛，且易过拟合。

由此自然的想到嵌入时间信息到空间信息中进行联合学习，此文提出的时间交错网络（TIN）正式通过交错过去到未来的空间信息，或是交错空间变化下的temporal信息，来实现融合两个域内的信息。

【PaperNotes】时间交错网络Temporal Interlacing Network

TIN理论上与标准时间卷积网络（r-TCN）是同等的，且TIN保持了输入特征图的空间尺寸，也就意味着在网络任意位置都可接入。

输入的channel-wise特征分为多个group，获取相邻帧的偏移于权重来混合时间信息。
通过shift操作并在时间维度使特征交错开，从而将学习到的偏移应用于对应的group。
串联特征并在时间维度上于学习的权重进行累加。

TIN模块可以捕捉到长范围的时间关系，并适用于不同采样率的数据集。group-wise的偏移也倾向于在不同时间戳上融合更多的时间信息。

Exhaustive

experiments further demonstrate the proposed TIN gains 4%

more accuracy with 6x less latency, and finally be the new

state-of-the-art method. Especially, TIN performs as the core

architecture in the 1

st solution of ICCV19 - Multi Moments

in Time challenge.

TIN

Intuition

联合学习时间和空间特征与其带来的巨大计算耗费的trade-offs一直存在，之前的工作focus on通过另外的时间维度来扩展2D CNN表示（时间卷积网络的提出）。静态的时序感受野降低计算成本的同时野丢失了多层空间信息，一个动态的时间感受野对于联合嵌入时间信息于空间信息中是至关重要的。

形变位移模块

【PaperNotes】时间交错网络Temporal Interlacing Network

OffsetNet

【PaperNotes】时间交错网络Temporal Interlacing Network

WeightNet

用于计算Eg，主要分为两部分：

卷积层（1D卷积层的kernel size为3，kernel数量等于group数量）
sigmoid and rescale module（输出rescale到(0,2)）

初始卷积层bias:0，初始output:1.0

时序可分帧采样（Differentiable Temporal-wise Frame Sampling）

【PaperNotes】时间交错网络Temporal Interlacing Network

Temporal-wise Frame Sampling

此步骤主要是进行线性插值，最终所有的移动或者未移动的channel会串联得到特征图V（与输入的特征图U具有相等size）

【PaperNotes】时间交错网络Temporal Interlacing Network

Temporal Extension

部分特征可能被移出而变为0，进而在训练阶段损失梯度。输入范围是[1, T]，为了减轻这个现象带来的影响，设置一个buffer来存储处于(0,1)与(T,T+1)间隔中被移出的特征。超出T+1与小于0的部分会被置0。

Temporal Attention

特征图乘以权重E之后再串联于V，由于两端的特征被移出，会加入注意力机制来re-weight特征并更好的获取长期信息。

实验部分

对2D CNN baseline和TSM进行定量分析，在Something(V1&V2)数据集上与SOTA进行对比。

使用的数据集：Something-Something(V1&V2), Kinetics-600(600类的30k验证集视频与392k训练视频), UCF101, HMDB51, Multi-Moments in Time, Jester.

Something-Something V1数据集比较结果：

【PaperNotes】时间交错网络Temporal Interlacing Network

TIN，TSM与2D baseline TSN的比对结果：

【PaperNotes】时间交错网络Temporal Interlacing Network

Multi Moments in Time验证集上的mAP：

【PaperNotes】时间交错网络Temporal Interlacing Network

精度与参数和浮点数运算的trade-offs如图：

【PaperNotes】时间交错网络Temporal Interlacing Network

时空域表示学习中的Temporal Models

时间模型依赖于时间相关的状态与sensor变量如下：

Xt:时间t下的不可直接观测状态集合

Et:时间t下的可观测的迹象变量

Markov假设： Xt依赖于X0:t-1的有限子集

First-order Markov过程： P(Xt|X0:t-1) = P(Xt|Xt-1)
Second-order Markov过程：P(Xt|X0:t-1) = P(Xt|Xt-2,Xt-1)

【PaperNotes】时间交错网络Temporal Interlacing Network

Sensor Markov假设：P(Et|X0:t, E:0:t-1) = P(Et|Xt)

Stationary过程：对于所有固定t下的转移方程P(Xt|Xt-1)与sensor模型P(Et|Xt)

Dynamic Bayesian Networks vs. Hidden Markov models

隐马尔可夫模型（HMM）实际上是一个单变量的动态贝叶斯网络（DBN），每一个离散的DBN是一个HMM。

【PaperNotes】时间交错网络Temporal Interlacing Network

DBN是疏散的，相比HMM具有指数级减少的参数量。

Spatio-temporal Model

时空模型基本式如下：

> y(s, t) = µ(s, t) mean structure + e(s, t) error structure = x(s,t)β(s,t) regression + w(s,t) spatiotemporal RE + ϵ(s,t) Error

最简单的时空模型，是假设观察不依赖空间和时间，如下

Optical Flow

【PaperNotes】时间交错网络Temporal Interlacing Network

RNN

【PaperNotes】时间交错网络Temporal Interlacing Network

LSTM

【PaperNotes】时间交错网络Temporal Interlacing Network

Temporal Convolution

C3D,etc.

Other Works

C3D

Learning spatiotemporal features for videos using 3D ConvNets

【PaperNotes】时间交错网络Temporal Interlacing Network

系统研究3D卷积的最优空间核长度
C3D可以同时构造appearance与motion information，在多种视频分析任务中表现超过2D卷积
提出当前在视频分析benchmark中表现最好的方法（使用线性分类器的C3D特征）
3D ConvNets比2D ConvNets更适合时空特征学习
对于C3D，同类网络架构中，在所有层使用333的卷积核时表现最好

预测Motion与Appearance Statistics的视频自监督时空表达学习

文中提出的方法的网络架构如下图，骨干结构采用上文所述的C3D进行视频时空特征学习。

【PaperNotes】时间交错网络Temporal Interlacing Network

P3D Residual Network

深度3D CNN会导致大量计算耗费与存储指令
提出为3D CNN提供的回收利用off-the-shelf 2D网络
提出Pseudo-3D Residual Net(Sports-1M视频分类数据集相对3D CNN与frame-based 2D CNN分别提升5.3%与1.8%)
结合3D卷积与2D空间的卷积另加1D时间连接来降低计算成本，并集成于深度residual学习框架供视频表示学习

【PaperNotes】时间交错网络Temporal Interlacing Network

Video representation learning

hand-crafted
- Space-Time interest Points
- Histogram of Gradient
- Histogram of Optical FLow
- 3D Histogram of gradient
- SIFT-3D
deep-learning based methods
- stack CNN-based frame-level representations in a fixed size of windows -> leverage spatio-temporal convolutions for learning video representation
- two-stream architecture[6]
- multi-granular structure
- convolutional fusion
- key-volume mining
- temporal segment networks
- LSTM-RNN(modeling temporal dynamics in videos)
- temporal pooling and stacked LSTM(combine frame-level representation and discover long-term temporal relationships)
- 3D CNN[7]
- 11-layer 3D CNN(C3D)[5]
- P3D

参考文献

[1] DESIGNING NEURAL NETWORK ARCHITECTURES

USING REINFORCEMENT LEARNING

[2] Temporal probability models

[3] Self-supervised Spatio-temporal Representation Learning for Videos

by Predicting Motion and Appearance Statistics

[4] Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani,

and Manohar Paluri. Learning spatiotemporal features with

3d convolutional networks. In ICCV, 2015.

[5] Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

[6] K. Simonyan and A. Zisserman. Two-stream convolutional

networks for action recognition in videos. In NIPS, 2014.

[7] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on

PAMI, 35, 2013.

[8] Structural-RNN: Deep Learning on Spatio-Temporal Graphs

[9] Black, Michael. (1999). Explaining Optical Flow Events with Parameterized Spatio-temporal Models. 1.

[10] Optical Flow Guided Feature: A Fast and Robust Motion Representation for

Video Action Recognition

【PaperNotes】时间交错网络Temporal Interlacing Network

简介

相关工作

TIN

实验部分

Other Works

参考文献

继续阅读

yolov7 tensorrt模型加速部署【实战】

Android-opencv之CVCamera

基于ORB特征点匹配的对极几何约束实现（源码+讲解）

使用hector构图_如何使用均衡的构图拍摄更清晰的照片

GMS：基于网格运动统计的快速极度鲁棒的特征匹配摘要1 简介2 本文的方法3 应用于快速记分的网格框架4 实验 5 结论

如何使用前景和背景创建更清晰的照片

在Ubuntu16.04上提取相邻序列图像之间的ORB的特征点，并用暴力方法找到匹配点并连线一、什么是ORB特征二、什么是暴力匹配三、实现代码四、运行方法

Matlab中将二维灰度图像三维显示

车道线检测

自监督｜「CoCLR」视频自监督对比学习笔记

视频对象分割（Video Object Segmentation）研究小记任务定义与数据集技术路线分类基于神经网络的模型总结

opencv视觉跟踪——消除背景建模

图形处理单元(GPU)的演进

2021-09-30三维点云测量正方形包裹体积

DOG算子

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络