天天看点

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

下面介绍面向视频分类的深度学习方 法。深度卷积神经网络在图像分类取得 成功后,研究人员就希望把它推广到视 频分类中。但这不是一件很容易的事, 一个原因是缺乏足够的训练数据。为此, 谷歌和斯坦福的研究人员开发了 Sports-1 M 数据库,包含 100 万段视频,有 487 类各种各样的运动,这是一个相当大的 数据库。同时他们改进了传统卷积神经 网络,用于处理视频序列,提出在不同 阶段进行特征的融合,这里图中给出了 Late Fusion、Early Fusion、Slow Fusion 三种策略,其中 Slow Fusion 效果最好。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

接着他们利用 Sports-1 M 这个数据库来训练自己开发的网络。一个值得关心 的问题是深度学习获得了什么样的特征, 下图给出学习到的三维,大家可以看到, 一闪一闪的,有一些彩色的动态边缘。但 这个方法在传统 UCF 数据库测试结果并 不高,低于传统非深度学习的方法。因此, 研究人员就在想有没有更好的方法。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

下面讲两个非常有效的视频深度学习 模型。第一个工作是 C3D 模型 , 该模型把 VGG 网络的滤波器从二维推广到三维, 增加的一维对应于时间。我们知道 VGG 网络中有大量 3×3 的滤波器,C3D 模 型 把 3×3 的滤波推广到 3×3×3。这个网络在 实际视频分类中取得了很好的效果。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

另一个工作,牛津大学的双流网络 Two Stream。该方法把光流也看成图像, 然后利用一个流 CNN 来处理光流图像; 另外一个流处理 RGB 图像。这个方法充 分利用了 CNN 对 2 维信号的强大处理能 力,在 UCF 数据库上取得了 88% 的识别 率,相当不错。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

我们知道在传统非深度学习方法中, 运动轨迹特征取得了很好的效果,这启 发我们能够把运动轨迹也考虑到深度建 模中来,或者说把原来运动轨迹特征和 深度神经网络做结合,发挥二者的强项。 运动轨迹可以对运动物体进行跟踪,并强 调运动显著性区域。卷积神经网络强在 它能够提取通过多层处理语义非常强的 特征,这些特征要比我们传统的 HoG、 HoF 能力强。这就提示我们可以沿着运 动轨迹提取卷积特征。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

具体怎么做结合?如图所示,左边参 照传统方法提取光流和运动轨迹,右边 利用卷积神经网络抽取视频的深度特征。 抽完特征后沿着这个运动轨迹把这些卷 积特征进行区域分割、编码和池化。当 然,这里还有一个问题就是如何训练神 经网络,我们采取类似双流网络的方法, 但细节上讲又对其做了改进。

中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

在实际试验中,我们发现卷积特征是 非常稀疏的,而且和运动区域是显著相关 的;我们还发现编码时引入一些正则化策 略和使用不同层的多尺度特征,对提升识 别率有帮助。这个方法在 UCF 数据库上 取得了 91.5% 的识别率,在当时是最高的。 我们这个工作发表在 CVPR 2015。

继续阅读