天天看点

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

对目标跟踪理解的不是很深入,如有问题,请及时指正交流。

SiamMask:实时的在线目标跟踪与目标分割统一架构

  • 论文地址:https://arxiv.org/pdf/1812.05050.pdf
  • SiamMask的测试代码:https://github.com/foolwood/SiamMask
  • 项目主页:http://www.robots.ox.ac.uk/˜qwang/SiamMask.
  • SiamFC:Fully-convolutional siamese networks for object tracking.https://arxiv.org/abs/1606.09549
  • SiamRPN:High performance visual tracking with siamese region proposal network https://arxiv.org/abs/1812.11703

摘要

在本文中,我们将介绍如何使用一种简单的方法实时对进行目标跟踪和半监督视频对象分割。我们的方法,称为SiamMask。通过在损失上增加目标分割的损失,改进了流行的全卷积网络Siamese跟踪方法的离线训练过程。经过训练,SiamMask完全依赖于初始化单个边界框并在线操作,产生类别未知的目标分割mask和实时每秒35帧的旋转边界框。尽管它的简单性,多功能性和快速性,我们的策略使我们能够在VOT-2018上建立一个新的最先进的实时跟踪器,同时展示了竞争性和在DAVIS-2016和DAVIS-2017上半监督视频目标分割的最佳速度。

1、介绍

       跟踪是任何视频应用中的基本任务,需要对感兴趣的对象进行一定程度的推理,因为它允许在帧之间建立目标对应关系。它可用于各种场景,如自动监视,车辆导航,视频标签,人机交互和行为识别。在第一帧中给定视频中的任意感兴趣目标的位置,视觉目标跟踪的目的是估计其在所有后续帧中的位置。

      对于许多应用程序,重要的是可以在视频流中在线执行目标跟踪。换句话说,跟踪器不应该利用未来的帧来推断目标的当前位置。这是由可视对象跟踪标准描绘的场景,它使用简单的轴对齐或旋转边界框来表示目标对象。这种简单的注释有助于降低数据标记的成本;更重要的是,它允许用户简单的初始化后快速的执行。

       与目标跟踪类似,半监督视频目标分割(VOS)的任务需要在视频的第一帧中估计任意指定目标的位置。然而,在这种情况下,目标表示由二进制分割掩码组成,该掩码表示每个像素是否属于目标。对于像素级信息的应用,例如视频编辑等,这种像素级详细表示更为理想。可以理解,生成像素级估计需要比简单边界框更多的计算资源。因此,VOS方法传统上很慢,每帧通常需要几秒钟。最近,人们对更快的方法产生了兴趣。但是,即使是最快的仍然无法实时操作。

        在本文中,我们旨在通过提出SiamMask缩小任意目标跟踪与VOS之间的差距,SiamMask是一种简单的多任务学习方法,可用于解决这两个问题。我们的方法是基于在数百万对视频帧上离线训练的全卷积网络Siamese的快速跟踪方法的成功以及最近可用的像素注释的大型视频数据集(YouTube- VOS )。我们的目标是保留这些方法的离线可训练性和在线速度,同时显着改进目标。

        为了实现这一目标,我们同时在三个任务上训练Siamese网络,每个任务对应于不同的方法,以在新帧中建立目标和候选区域之间的对应关系。正如Bertinetto等人的全卷积方法一样,一个任务是以滑动窗口的方式学习目标和多个候选框之间的相似性度量。输出是一个密集的响应图,它只指示目标的位置,而不提供有关其空间范围的任何信息。为了完善这些信息,我们同时学习了另外两个任务:使用Region Proposal Network [52,31]和classagnostic binary segmentation[49]进行边界框回归。值得注意的是,二进制标签仅在离线训练期间用于计算分割的损失而用在跟踪上。在我们提出的架构中,每个任务由不同的分支表示,不同的分支共享CNN并都对最终的损失有帮助,使他们三个输出的和。

         经过训练,SiamMask完全依赖于初始化的单个边界框,无需更新即可在线操作,并以每秒35帧的速度生成分割mask和旋转边界框。尽管SiamMask具有简单和快速的特点,但它在VOT-2018上为实时物体跟踪问题建立了一种新的先进技术。此外,此方法与DAVIS-2016和DAVIS-2017上最近的半监督VOS方法相比也具有很强的竞争力,同时也是最快的。这个结果是通过简单的边界框初始化实现的,并且没有采用VOS方法常用的昂贵技术,如微调,数据增强和光流。

         本文的其余部分如下。第2节简要概述了一些先前工作;第3节描述了我们的方法;第4节对四个基准进行了评估,并说明了几个消融研究;第5节总结。

3、方法

       为了实现在线可操作性和快速性,我们采用了全卷积的Siamese框架。此外,为了说明我们的方法与先前方法无关,我们以流行的SiamFC 和SiamRPN为两个代表性例子说明。我们首先在3.1节介绍它们,然后在3.2节描述我们的方法。

3.1 全卷积Siamese

SiamFC:建议使用离线训练的完全卷积Siamese网络作为跟踪系统的基本构建块,该网络将示例图像z与搜索图像x(较大)进行比较以获得密集响应图。 z和x分别是以目标对象为中心的w×h裁剪图像和以目标的最后估计位置为中心的较大裁剪图像。两个输入由相同的CNN fθ处理,产生两个互相关的特征图。

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

  公式1

在本文中,我们将响应图的每个空间元素(等式1的左侧)称为response of a candidate window 候选窗口的响应(RoW)。例如,

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

编码得到示例图片z和搜索窗口x中第n个候选窗口之间的相似性。对于SiamFC,目标是使响应图的最大值就对应于搜索区域x中的目标位置。本文中,为了允许每个RoW编码得到关于目标的更丰富的信息,我们用depth-wise crosscorrelation替换了公式1的简单互相关,产生多通道响应图。SiamFC在数百万视频帧上离线训练使用Logistic损失,我们将其称为Lsim。

SiamRPN。依靠区域建议网络(RPN)大大提高了SiamFC的性能,该网络允许使用可变长宽比的边界框估计目标位置。特别地,在SiamRPN中,每个RoW编码得到一组k个anchor box和对应的目标/背景分数。因此,SiamRPN输出框预测与分类分数并行输出。两个输出分支使用平滑L1和交叉熵损失训练。在下文中,我们分别将它们称为Lbox和Lscore。

3.2、SiamMask

        与依赖低保真表示的现有跟踪方法不同,我们讨论了生成每帧二分割Mask的重要性。为此目的,我们表明,除了相似性得分和边界框坐标之外,完全卷积Siamese网络的RoW还可以编码产生像素级的掩模信息。这可以用额外的分支和Loss扩展现有的Siamese跟踪网络(也就是SiamRPN的扩展)来实现。

        我们使用具有可学习参数φ的简单的两层神经网络hφ对每个RoW预测w×h二元掩模。令

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

表示对应于第n个RoW的预测mask,则可表示为:

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

公式2

上式我们可以看到,mask预测是x的从图像到分割和z中的目标对象的函数。以这种方式,z可以用作参考指导分割过程,使得任意类的目标可以被跟踪。这清楚地意味着,给定不同的搜索图像z,网络将为x产生不同的分割mask。

损失函数。在训练期间,每个RoW用真实的二进制标签

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

标记并且还与尺寸为w×h的像素级的Mask cn相关。

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

表示在第n个

候选区域(i,j)像素对应的物体mask。对于分割任务的损失函数用所有RoW的逻辑回归损失的和表示。

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

注意,此损失函数只在yn=1时有意义,即只计算RoW包含目标的情况下。

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

由w*h分类器组成,每个判断候选窗口中的给定像素是否属于目标。

Mask representation。与FCN 和Mask R-CNN语义分割方法相比,这包含了明确的空间信息,并从扁平化的目标表示开始生成mask。特别地,在这种情况下,该表示对应于

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

通过depth-wise cross-correlation生成的1×1×256的RoW中的一个。重要的是,分割任务的网络

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

由两个1×1卷积层组成,一个具有256个,另一个具有

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

个通道。这允许每个像素分类器利用整个RoW中包含的信息,从而对x中的候选窗口有完整的考虑,这对于消除看起来像目标的实例之间的歧义是关键的,也被称为干扰物。为了生成更精确的分割图像,我们遵循[50]的策略,该策略使用由upsampling和skip connections组成的多个细化模块来合并低分辨率和高分辨率特征。更多细节可以在附录A中找到。

两个变体。对于我们的实验,我们使用我们的分割分支和损失Lmask来扩充SiamFC和SiamRPN的体系结构,获得我们称之为SiamMask的两分支和三分支变体。我们分别优化了多任务损失L2B和L3B,定义如下:

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

我们建议读者阅读2.2小节的Lsim和3.2小节的Lbox和Lscore。对于L3B,如果anchor与真实的box有至少0.6IOU则是正例,否则是负例。对于L2B,我们采用SiamFC相同的策略来定义正样本和负样本。我们没有搜索公式4 、5的超参数。简单地设置λ1= 32,λ2=λ3= 1。box和score输出的特定任务分支由两个1×1卷积层构成。图2说明了SiamMask的两个变体。

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

Box generation。请注意,虽然VOS基准测试需要二元mask,但典型的跟踪基准测试(如VOT )需要一个边界框作为目标的最终表示。我们考虑三种不同的策略从二元mask生成边界框(下图):( 1)轴对齐边界矩形(Min-max),(2)旋转最小边界矩形(MBR)和(3)用于VOT-2016(Opt)中提出的自动边界框生成的优化策略。我们在第4节(表1)中对这些方案进行了实证评估。

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

我们测试了三种通过mask来找bounding box的方案,红色是轴对齐(Min-max),即像素的最大最小值,所以都是矩形框,绿色框是旋转最小边界矩形(MBR),蓝色框是The visual object tracking vot2016 chal-lenge results.论文中提出的一种边界框的优化算法,叫做Opt。

4、实验

      在本节中,我们评估了在两个相关任务上的方法:视觉目标跟踪(在VOT-2016和VOT-2018上)和半监督视频目标分割(在DAVIS2016和DAVIS-2017上)。我们分别用SiamMask-2B和SiamMask来指代我们的双分支和三分支变体。

4.1、目标跟踪

数据集和设置。我们采用两个广泛使用的数据集来评估目标跟踪:VOT2016 和VOT-2018 ,两者都用旋转的边界框注释。我们使用VOT-2016进行实验,以了解不同类型的表示如何影响性能。对于第一个实验,我们使用平均IOU和平均精度(AP)@{0.5,0.7}。然后,我们使用官方VOT工具和一种考虑跟踪准确和鲁棒的指标EAO与VOT-2018的最新技术进行比较。

目标box generation表示有多重要?现有的跟踪方法通常预测具有固定大小或可变长宽比的轴对齐边界框。我们感兴趣的是了解生成每帧mask可以在多大程度上改善跟踪。为了专注于表示的准确性,对于该实验,我们仅忽略时间方面,随机采样视频帧。以下段落中描述的方法在来自VOT-2016视频序列的随机裁剪的搜索块(具有一定的位移与变形)上进行测试。

        在表1中,我们使用Min-max,MBR和Opt方法比较我们的三分支变体。我们还报告了SiamFC和SiamRPN的结果,作为固定和可变长宽比方法的代表,以及三个可以访问每帧真实信息的oracles,并作为不同表示策略的上限。

CVPR2019论文翻译与理解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:实时的在线目标跟踪与目标分割统一架构未完待续

       表1显示,无论使用哪种box生成策略,我们的方法都能达到最佳mIOU。尽管SiamMask-Opt提供了最高的IOU和mAP,但由于其优化过程缓慢,需要大量的计算资源。相反,我们采用MBR策略(其计算开销可忽略不计)用于我们的最终目标跟踪评估。 SiamMaskMBR在0.5IOU下mAP达到了85.4,对应SiamFC和SiamRPN提升了+29和+9.2。有趣的是,当在0.7 IOU的较高准确度方案中考虑mAP时,差距扩大:分别为+41.6和+18.4。值得注意的是,我们的准确性结果与固定的Oracle相差无几。此外,比较由oracles表示的上限性能,可以注意到,通过简单地改变边界框表示,可以有很大的改进空间(例如,固定宽高比和 MBR oracles之间有+ 10.6%的mIOU提升)。

     总的来说,这项研究表明,从目标的Mask获得旋转边界框的MBR策略比简单地提供轴对齐边界框有显着的优势。

未完待续

继续阅读