CVPR阿里优秀论文 | 基于时间尺度选择的在线行为预测

在线行为预测指的是当一个动作还未执行完之前，算法使用已经观测到的这些片段来预测该动作的类别。这个问题有几个关键点：首先，它是“在线”的，这表示算法得足够快，以实现在线应用；其次，算法需要在动作发生的早期（比如只完成了10%）便进行类别预测；此外，算法处理的是未分割的视频，这意味着视频可能包含多个动作实例，比如下图的视频序列就包含了多个动作。

针对在线行为识别这一问题，我们可以使用在时间维度上滑动窗口的设计。传统滑动窗口方法往往采用一个固定的窗口尺度，或者采用多个尺度多次往返扫描。而在线行为预测这一问题中，如果使用多次扫描的话，会影响算法的运行效率；但是如果只用单一固定尺度的话，选择一个合适的时间窗口尺度却很不容易。

这是因为在行为预测任务中，当前正在发生的动作的已观测部分的长度在不同的时间点是在变化的。在动作发生的早期，我们需要使用比较小的时间窗口尺度，因为太大的窗口会包含很多来自于之前动作的帧，这些噪声信息会干扰对当前动作类别的识别。而在动作发生的后期，我们可以使用大的窗口尺度来尽可能覆盖该动作已执行的片段，以达到更好的预测准确率。这意味着在不同阶段使用一个固定的窗口尺度是不合适的。

在这篇论文中，作者提出了一个“尺度选择网”（scale selection network）来在不同时刻点动态的选择当前最合适的窗口尺度。该网络的基本结构如下图所示。

尺度选择网在时间维度上采用一维的卷积来建模不同帧之间的运动动态信息。为了得到一系列不同的时间尺度，该网络采用了扩张卷积（dilated convolution）的设计。通过设计一个层状的（hierarchical）扩张卷积网络的架构，在网络中，不同卷积层的节点拥有不同的感知窗口范围。比如，第1个卷积层的感知范围是2，第2层是4，第3层则是8，等等。

在如上的网络架构中，我们得到了一系列的感知尺度范围。针对在线行为识别不同时间点尺度变化的问题，我们需要在每个时间点来动态选择当前合适的时间窗口尺度。这篇文章设计了一个尺度回归子网络来预测每个时间点需要的尺度大小，该子网络如下图所以。

尺度回归子网络通过聚合网络中所有卷积层的信息，并将聚合的信息输入一个全连接网络中，来估计当前动作的当前帧到该动作起始帧之间的距离（s）。得到的s则可用于代表当前动作已经执行的部分，因此它可以用于作为预测当前动作类别合适的时间窗口尺度。

得到合适的窗口尺度（s）后，我们可以找到该尺度对应的卷积层。前面我们提到，在尺度选择网中，不同的层对应不同的感知尺度，因此我们找到最匹配的这一层，然后我们就可以使用这层的信息来预测动作类别（c）。这篇论文设计了一个类别预测子网络，在这个子网络中，合适的卷积层的信息被输入全连接网络用于行为预测。如下图所示，假定第3卷积层最匹配窗口尺度s，那么则聚合第1到第3层的信息。注意论文不仅仅使用了第3层信息，还融合了其下面的层，这是因为这种skip connection设计可以让网络收敛得更快，同时多尺度的信息融合，也能提高行为预测的准确率。

因为在视频序列的每个时间点上，网络都回归并采用最合适的时间窗口尺度，因此该方法可以得到可靠的预测准确率。值得一提的是，虽然尺度选择网有多个子网络，比如时间序列建模的一维卷积子网络，尺度回归子网络，以及行为预测子网络，但是所有这些子网络均集成在同一个网络架构中，因此整个网络可以端到端进行训练。

作者使用了两个公开数据集来测试尺度选择网的效果，在两个数据集上都取得了很好的实验结果。实验结果如下图所示，其中SSNet是本文所提出的尺度选择网；而SSNet-GT则表示使用Ground Truth尺度来进行行为预测；FS-Net（S）则表示在所有时间点均采用同一个固定的尺度（S）用于行为预测。ST-LSTM则是本文作者之前发表在T-PAMI上的“Skeleton-Based Action Recognition Using Spatio-Temporal LSTM Networkwith Trust Gates”。Attention Net是作者发表在CVPR17的“Global Context-Aware Attention LSTM Networks for 3D ActionRecognition”。JCR-RNN是MSRA和PKU发表在ECCV16上的“Online Human Action Detection using Joint Classification-RegressionRecurrent Neural Networks”。可以看到，本文提出的SSNet的实验结果优于其他方法，并且准确率也接近使用Ground Truth尺度的结果。

CVPR阿里优秀论文 | 基于时间尺度选择的在线行为预测

继续阅读

查找算法之二分查找查找算法之二分查找

查找算法学习之二分查找（Python版本）——BinarySearch

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希