论文笔记ATOM: Accurate Tracking by Overlap Maximization
- 1. 论文标题及来源
- 2. 拟解决问题
- 3. 解决方法
-
- 3.1 算法流程
- 3.2 目标估计分支
- 3.3 在线分类分支
- 3.3 难样本挖掘
- 4. 实验结果
-
- 4.1 消融实验
- 4.2 数据集结果
- 5. 总结
1. 论文标题及来源
ATOM: Accurate Tracking by Overlap Maximization, CVPR, 2019
下载地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Danelljan_ATOM_Accurate_Tracking_by_Overlap_Maximization_CVPR_2019_paper.pdf
2. 拟解决问题
a. 大多数跟踪器采用较简单的多尺度搜索估计目标的位置,但是目标定位是一个复杂任务,无法通过简单的方式实现精准定位
3. 解决方法
3.1 算法流程
该算法由四个模块组成。它的流程如下:
a. 通过骨干网络提取参考帧的特征,记为 ϕ ( r ) \phi(r) ϕ(r)
b. 将 ϕ ( r ) \phi(r) ϕ(r)输入IoU Modulation模块,得到Modulation Vector(调制向量),记为 V m V_m Vm
c. 通过骨干网络提取测试帧中所有proposal的特征,记为 ϕ ( t ) \phi(t) ϕ(t)
d. 将 ϕ ( t ) \phi(t) ϕ(t)和 V m V_m Vm输入IoU Predictor模块,预测所有proposal的IOU
e. 通过Classifier在线学习target的特征,得到响应图
f. 根据响应图和预测的IoU得到最终的回归框
3.2 目标估计分支
该模块为分为上下两个分支,上分支处理参考图片(模板),下分支是测试分支(搜索区域),它的流程如下:
a. 使用ResNet-18提取参考帧的第三层和第四层特征
b. 将这两层特征各自通过卷积层得到新的特征图,分别记为 ϕ ( r 3 ) , ϕ ( r 4 ) \phi(r_3),\phi(r_4) ϕ(r3),ϕ(r4)
c. 通过PrPool提取 ϕ ( r 3 ) , ϕ ( r 4 ) \phi(r_3),\phi(r_4) ϕ(r3),ϕ(r4)中RoI的特征,记为 ϕ ( r 3 ′ ) , ϕ ( r 4 ′ ) \phi(r'_3),\phi(r'_4) ϕ(r3′),ϕ(r4′)
d. 将 ϕ ( r 3 ′ ) \phi(r'_3) ϕ(r3′)通过FC层与 ϕ ( r 4 ′ ) \phi(r'_4) ϕ(r4′)融合
e. 将融合后的特征分别通过两个FC层得到对应的调制向量,分别记为 V 3 m , V 4 m V_{3m},V_{4m} V3m,V4m
f. 测试帧处理方式类似,得到测试帧RoI特征后,分别记为 ϕ ( t 3 ′ ) , ϕ ( t 4 ′ ) \phi(t'_3),\phi(t'_4) ϕ(t3′),ϕ(t4′)
g. ϕ ( t 3 ′ ) \phi(t'_3) ϕ(t3′)和调制向量 V 3 m V_{3m} V3m进行点乘操作得到新的特征图 ϕ ( t 3 ′ ′ ) \phi(t''_3) ϕ(t3′′), ϕ ( t 4 ′ ) \phi(t'_4) ϕ(t4′)和 V 4 m V_{4m} V4m进行点乘操作得到新的特征图 ϕ ( t 4 ′ ′ ) \phi({t''_4}) ϕ(t4′′)
h. ϕ ( t 3 ′ ′ ) \phi({t''_3}) ϕ(t3′′)和 ϕ ( t 4 ′ ′ ) \phi({t''_4}) ϕ(t4′′)分别通过FC层之后,得到各自的新特征
i. 将两者新特征融合,然后连接FC得到预测的IoU
3.3 在线分类分支
该分支含有两个FC层,即
f ( x ; w ) = ϕ 2 ( w 2 ∗ ϕ 1 ( w 1 ∗ x ) ) f(x; w) = \phi_2(w_2 * \phi_1(w_1 * x)) f(x;w)=ϕ2(w2∗ϕ1(w1∗x))
损失函数采用DCF中的常用损失函数
L ( w ) = ∑ j = 1 m r j ∣ ∣ f ( x j ; w ) − y j ∣ ∣ 2 + ∑ k λ k ∣ ∣ w k ∣ ∣ 2 L(w) = \sum_{j=1}^m r_j||f(x_j; w) - y_j||^2 + \sum_k \lambda_k ||w_k||^2 L(w)=∑j=1mrj∣∣f(xj;w)−yj∣∣2+∑kλk∣∣wk∣∣2
y j y_j yj是W * H的高斯响应标签
数学功底不行,这里就不详细解释了,感兴趣的可以去看看原论文
3.3 难样本挖掘
本节非本文的重点,但是觉得比较有意思,就简单提一下。它的做法如下:
当出现干扰时,即响应图上含有多个高响应点,则将在线更新模块的学习率调整为原来的两倍,并且立即进行一次优化。
4. 实验结果
4.1 消融实验
4.2 数据集结果
5. 总结
该论文主要解决目标定位问题,认为目标定位是个复杂任务,无法通过简单的多尺度方式估计位置。因此本文借鉴IoU-Net思想,提出IoU调制模块和IoU预测模块,根据参考分支的gt框生成调制向量,将调制向量输入测试分支,与测试帧的proposal进行点乘操作,得到预测的IoU;除此之外,还加速了在线学习的优化过程,在1080上速度能达到30fps。