天天看点

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

当时间从一维变为二维时,时间序列信息处理问题出现了一种新的建模思想。基于这一新的思想和二维时间图的概念,微软亚洲研究院提出了一种解决时间定位问题的新的通用方法:基于视频内容的自然语言描述的二维时域邻近网络2D-TAN。验证了视频定位和人体运动检测的有效性,并在2019年ICCV HACS动作定位挑战赛中获得第一名。相关技术细节将发表在AAAI 2020论文“用自然语言学习二维时间相邻网络进行时刻定位”本文将对本研究进行深入的阐释。

作者信息

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

介绍

我们通常把物理世界定义为三维空间,把时间定义为一维空间。然而,这并不是定义它的唯一方法。最近,研究人员打开了思路,提出了一种新的时间表示方法,将时间定义为二维!

时间是如何用二维表示的?他们给出的答案是:在二维空间中,我们定义一个维度来表示时间的开始时间,另一个维度来表示时间的结束时间;因此,二维空间中的每个坐标点都可以表示为一个时间段(例如,从时间A到时间B结束的时间段)一个特定的时间点(例如,从时间a到时间a的结束,即时间a)。

这个二维时间定义的目的和意义是什么?他们认为这种新的时间定义方法可以为时间序列信息的处理,如视频、语音、轨迹等时间序列信息的分析和处理提供一种新的建模思路。近年来,他们将这种新的时间表达式应用于视频内容的理解,在视频中实现了人体运动检测和视频内容片段定位任务中取得了优异的性能。值得一提的是,他们应用这种新的时间表达方法,结合最新的深度学习模型,在视频动作识别与检测竞赛(HACS时间动作定位挑战赛)中取得了第一名。

方法

下面,让我们了解一下这个二维时间表达式是如何应用到视频内容理解任务中的。

  • 基于二维时间图的视频内容分段定位

视频内容片段定位包括多个子任务,如视频中具有自然语言描述的视频片段定位和视频中的时间动作定位。前者需要根据用户给出的描述语句来定位文本所描述的视频剪辑的开始和结束时间点,后者需要检测动作片段类别的存在并将其定位在动作开始和结束的给定长视频时间点上。

在这些任务中,一种常见的方法是预先设置一些候选视频片段(建议/时刻/片段),然后相应地预测每个片段的可能性。然而,在预测过程中,以往的工作通常只对每一段进行独立的预测,而忽略了各段之间的依赖关系。为此,本文提出了二维时间映射的概念,并通过二维时间域邻接网络(2D-Temporal-jacent network,即2D-TAN)来解决这一问题。该方法是解决时间定位问题的一般方法。它不仅可以学习段间的时域邻近关系,还能学习更多的特征表达式。

在上述视频内容片段定位任务中,验证了该方法的有效性。在基于自然语言描述的视频片段定位任务中,我们提出的2D-TAN方法在三个基准数据集上取得了良好的性能结果,相关论文已被AAAI 2020[1]所接受。在视频中的人体运动检测中,我们基于2D-TAN的改进方案[2]在HACS时间动作定位挑战中获得了第一名。

下面以自然语言描述的视频内容片段定位为例介绍我们的工作,并简要介绍了人体运动检测的发展。

  • 基于自然语言描述的视频片段定位

基于自然语言描述定位视频片段的任务是根据用户给出的描述语句,从视频中定位文本描述的视频片段,并返回该片段的开始和结束时间,如图所示,之前的工作是独立地匹配句子和片段,忽略其他碎片对它的影响。在处理多个片段时,很难获得准确的结果,特别是在片段之间存在依赖关系时。例如,当我们想定位“那个家伙又吹萨克斯管了”时,如果我们只看下一个视频而不是上一个视频,我们就找不到视频中的这个片段。另一方面,有许多候选片段与目标片段重叠,如图1中查询B下的各个片段。这些剪辑具有相似的视频内容,但在语义上略有不同。如果不综合考虑这些片段来区分细微差别,也很难得到准确的结果。

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

图1:在未修剪的视频中使用自然语言定位瞬间的示例。 在二维时间图中,黑色的垂直轴和水平轴代表开始和结束帧索引,而相应的灰色轴代表视频中相应的开始和结束时间。 2D映射中用红色突出显示的值表示候选时刻和目标时刻之间的匹配分数。 在此,τ是由视频长度和采样率确定的短持续时间。

为了解决这个问题,我们提出了一个二维时域邻近网络(2D-TAN)。核心思想是在二维时间图中定位视频片段,如图1所示。具体来说,图中的(i,j)表示从i到(j+1)的时间段。该图包含不同长度的片段,并且通过图中坐标的距离,我们可以定义这些片段之间的邻近关系。通过这些关系,我们的2D-TAN模型可以对依赖项进行建模。同时,不同剪辑和目标剪辑之间的重叠程度也会有所不同。2D-TAN可以通过将这些重叠的差异作为一个整体来考虑,而不是单独考虑每个段,从而学习更多的区别特征,如图2所示:

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

图2:与以前方法的比较。绿色长方体表示候选片段与句子融合后的相似性特征。框中指示分数,框中的红色程度指示段与目标段重叠的程度。左图显示了前面的方法,它独立地预测每个片段的得分。右边的图显示了我们的方法。在预测当前段的得分时,它考虑了相邻段之间的关系。

  • 二维时域邻近网络(2D-TAN)

我们的2D-TAN模型如图3所示。该网络由三部分组成:用于提取自然语言文本特征的编码器、用于提取视频特征地图的编码器和用于定位的时域邻近网络。下面我们将详细介绍每个部分。

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

图3:我们建议的2D时间相邻网络的框架。 它由用于语言表示的文本编码器,用于视频表示的2D时域特征图提取器和用于时域定位的时域相邻网络组成

  • 文本特征

我们将每个文本词转换成一个GloVe向量表示法[4],然后将其最后一层的输出作为文本句子的特征,依次通过LSTM网络[5]传递。

  • 视频二维特征图

我们首先将视频分割成小的单元片段,然后将其下采样到均匀的长度,然后通过预先训练的网络提取其特征。提取的特征通过卷积和池运算得到最终的剪辑特征(N×d^v)。候选片段由连续的单元片段组成,不同候选片段的长度可能不同。为了获得一个统一的特征表示,对于每个候选片段,我们通过最大限度地汇集相应的单元片段序列来获得其最终身份。根据每个候选段的开始和结束时间点,将所有候选段重新排列成一个大小为N×N×d^v的二维特征图,因为开始时间总是小于结束时间,所以特征图的下三角部分无效,所以我们用0填充它们,不参与后续的计算。

当N较大时,特征映射的计算量也会增加。为了解决这个问题,我们还提出了一种稀疏映射构造策略,如图4所示。在这个图中,我们根据片段的长度以不同的密度进行采样。对于短剪辑,我们枚举所有可能的情况并执行密集采样。对于中等长度的剪辑,我们将采样步长设置为2。对于长剪辑,我们将采样步长设置为4。这样,在保证计算精度的同时,可以减少枚举带来的计算开销。所有未选择的片段都用0填充,不参与后续计算。

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

图4:未修剪的视频中有N = 64个采样片段时的候选矩选择。 2D映射的上部三角形部分枚举了从剪辑va到vb的所有可能的矩候选,而下部三角形部分无效。 在我们的方法中,仅选择蓝点作为矩候选, 彩色效果最佳。

  • 基于时间的邻近网络定位

利用视频的二维特征图(图3中的蓝色立方体)和句子的文本特征(图3中的黄色立方体),我们首先将特征图中每个位置的视频特征与文本特征融合,得到相似度特征图(图3右图像中左侧的绿色立方体)。然后,将融合后的相似性特征映射通过一系列卷积层,并逐层建立各段与其周围段之间的关系。最后,将考虑邻域关系的相似度特征输入到完全连通层中,得到最终的得分。

  • 损失函数

在训练整个2D-TAN网络时,使用二元交叉熵作为损失函数,并在损失函数中使用线性变换的交并(IoU)值作为标记。

实验结果

我们在三个数据集上进行了测试:Charades STA[6]、ActivityNet caption[7]和TACoS[8]。实验结果见表1-3。从实验结果可以看出,该方法在不同数据集的各种评价指标下都取得了良好的性能。值得注意的是,在更严格的评价标准下(如表1-3中的秩{1,5}@{0.5,0.7})我们的方法改进更为显著,尤其是在玉米卷中,[email protected]和[email protected]都提高了5和14个百分点。这些实验结果表明,基于二维时间图的贴近关系的建模可以大大提高性能。

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

表1:Charades-STA上的性能比较。 Pool和Conv分别表示最大池化和堆叠卷积,这指示了我们2D TAN中矩特征提取的两种不同方式。 用粗体和斜体字体突出显示的值分别表示前2种方法。 其余表使用相同的符号。

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

表2:ActivityNet字幕的性能比较

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

表3:TACoS的性能比较

基于二维时间映射的人体运动检测

考虑到2D-TAN方法的通用性及其在基于自然语言的时间定位任务中的优异性能,我们在后续工作中将其扩展到视频中的人体运动检测任务。此任务需要检测给定长视频中预定义的动作段类别及其开始和结束时间点。一种常见的方法是将任务分成两个步骤,首先检测哪些片段可能具有预定义的动作片段(建议生成),然后预测这些候选片段可能属于的类别。考虑到这类实践的第一步与我们提出的2D-TAN方法非常相关,其本质是为了解决碎片之间的相互依赖问题,因此我们使用2D-TAN方法来改进这一任务。见图5:

图5:S-2D-TAN框架图

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

与基于自然语言描述的视频片段定位相比,用于视频运动定位的目标片段往往更短。因此,需要更高的采样频率,因此采样单元片段N的数量更大。相应地,特征映射中长片段的采样步长也会相对较大,并且底层卷积层往往感觉不到足够的上下文信息。在图5中,红色虚线框表示中长线段的第一层中涉及的相邻线段,黄色虚线框表示短线段中涉及的相邻线段。我们可以看到黄色框比红色框包含更多的上下文信息。因此,在2D-TAN的基础上,我们设计了一个稀疏的2D时间邻接网络(即S-2D-TAN),用于上下文信息较少的长段。该网络根据采样步长将稀疏映射分解为三个更为紧凑的时域特征映射。通过将不同的特征映射通过具有共享内核的卷积网络,长段可以从周围的特征中获取更多的上下文信息。

作者的算法在ICCV2019年HACS行动定位挑战赛中获得第一名。值得一提的是,HACS是目前视频中用于人体运动检测任务的最大数据集[2]。详见技术报告[3]。

AAAI 2020 | HACS运动定位冠军方案 基于一种新颖的2D时间邻域网络方法视频内容动作定位

图6:比赛获奖证书

结论

论文地址或源码下载地址:关注“图像算法”wx公众号 回复"2D-TAN",本文提出了一种二维时间图表示和一种新的用于视频内容段定位的时域邻近网络(2D-TAN)。该方法的有效性是基于视频内容定位和人体运动检测的自然语言描述。已对此任务进行了初步验证。这种方法还处于探索的初级阶段:从网络结构的角度看,目前的结构只采用简单的卷积层叠加方式。相信网络结构本身的进一步优化将带来性能的提高。另一方面,从方法的通用性来看,目前我们只验证了两个任务,还有很多相关任务值得扩展,比如视频文本描述、视频内容问答,或者其他包含语音等计时信息的任务。

继续阅读