中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

下面介绍面向视频分类的深度学习方法。深度卷积神经网络在图像分类取得成功后，研究人员就希望把它推广到视频分类中。但这不是一件很容易的事，一个原因是缺乏足够的训练数据。为此，谷歌和斯坦福的研究人员开发了 Sports-1 M 数据库，包含 100 万段视频，有 487 类各种各样的运动，这是一个相当大的数据库。同时他们改进了传统卷积神经网络，用于处理视频序列，提出在不同阶段进行特征的融合，这里图中给出了 Late Fusion、Early Fusion、Slow Fusion 三种策略，其中 Slow Fusion 效果最好。

接着他们利用 Sports-1 M 这个数据库来训练自己开发的网络。一个值得关心的问题是深度学习获得了什么样的特征，下图给出学习到的三维，大家可以看到，一闪一闪的，有一些彩色的动态边缘。但这个方法在传统 UCF 数据库测试结果并不高，低于传统非深度学习的方法。因此，研究人员就在想有没有更好的方法。

下面讲两个非常有效的视频深度学习模型。第一个工作是 C3D 模型 , 该模型把 VGG 网络的滤波器从二维推广到三维，增加的一维对应于时间。我们知道 VGG 网络中有大量 3×3 的滤波器，C3D 模型把 3×3 的滤波推广到 3×3×3。这个网络在实际视频分类中取得了很好的效果。

另一个工作，牛津大学的双流网络 Two Stream。该方法把光流也看成图像，然后利用一个流 CNN 来处理光流图像；另外一个流处理 RGB 图像。这个方法充分利用了 CNN 对 2 维信号的强大处理能力，在 UCF 数据库上取得了 88% 的识别率，相当不错。

我们知道在传统非深度学习方法中，运动轨迹特征取得了很好的效果，这启发我们能够把运动轨迹也考虑到深度建模中来，或者说把原来运动轨迹特征和深度神经网络做结合，发挥二者的强项。运动轨迹可以对运动物体进行跟踪，并强调运动显著性区域。卷积神经网络强在它能够提取通过多层处理语义非常强的特征，这些特征要比我们传统的 HoG、 HoF 能力强。这就提示我们可以沿着运动轨迹提取卷积特征。

具体怎么做结合？如图所示，左边参照传统方法提取光流和运动轨迹，右边利用卷积神经网络抽取视频的深度特征。抽完特征后沿着这个运动轨迹把这些卷积特征进行区域分割、编码和池化。当然，这里还有一个问题就是如何训练神经网络，我们采取类似双流网络的方法，但细节上讲又对其做了改进。

在实际试验中，我们发现卷积特征是非常稀疏的，而且和运动区域是显著相关的；我们还发现编码时引入一些正则化策略和使用不同层的多尺度特征，对提升识别率有帮助。这个方法在 UCF 数据库上取得了 91.5% 的识别率，在当时是最高的。我们这个工作发表在 CVPR 2015。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

继续阅读

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

Linxu常用命令技巧汇总

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艰难安装LDAP,SSL认证

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

MySQL的4种隔离级别？出现问题

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

无人机--飞控科普

neo4j之cypher使用文档

NOSQL安全攻击

mybatis_入门程序Mybatis入门

登录plsql 报错 the account is locked --用户被锁

SequoiaDB巨杉数据库C++驱动概述