論文筆記ATOM: Accurate Tracking by Overlap Maximization
- 1. 論文标題及來源
- 2. 拟解決問題
- 3. 解決方法
-
- 3.1 算法流程
- 3.2 目标估計分支
- 3.3 線上分類分支
- 3.3 難樣本挖掘
- 4. 實驗結果
-
- 4.1 消融實驗
- 4.2 資料集結果
- 5. 總結
1. 論文标題及來源
ATOM: Accurate Tracking by Overlap Maximization, CVPR, 2019
下載下傳位址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Danelljan_ATOM_Accurate_Tracking_by_Overlap_Maximization_CVPR_2019_paper.pdf
2. 拟解決問題
a. 大多數跟蹤器采用較簡單的多尺度搜尋估計目标的位置,但是目标定位是一個複雜任務,無法通過簡單的方式實作精準定位
3. 解決方法
3.1 算法流程
該算法由四個子產品組成。它的流程如下:
a. 通過骨幹網絡提取參考幀的特征,記為 ϕ ( r ) \phi(r) ϕ(r)
b. 将 ϕ ( r ) \phi(r) ϕ(r)輸入IoU Modulation子產品,得到Modulation Vector(調制向量),記為 V m V_m Vm
c. 通過骨幹網絡提取測試幀中所有proposal的特征,記為 ϕ ( t ) \phi(t) ϕ(t)
d. 将 ϕ ( t ) \phi(t) ϕ(t)和 V m V_m Vm輸入IoU Predictor子產品,預測所有proposal的IOU
e. 通過Classifier線上學習target的特征,得到響應圖
f. 根據響應圖和預測的IoU得到最終的回歸框
3.2 目标估計分支
該子產品為分為上下兩個分支,上分支處理參考圖檔(模闆),下分支是測試分支(搜尋區域),它的流程如下:
a. 使用ResNet-18提取參考幀的第三層和第四層特征
b. 将這兩層特征各自通過卷積層得到新的特征圖,分别記為 ϕ ( r 3 ) , ϕ ( r 4 ) \phi(r_3),\phi(r_4) ϕ(r3),ϕ(r4)
c. 通過PrPool提取 ϕ ( r 3 ) , ϕ ( r 4 ) \phi(r_3),\phi(r_4) ϕ(r3),ϕ(r4)中RoI的特征,記為 ϕ ( r 3 ′ ) , ϕ ( r 4 ′ ) \phi(r'_3),\phi(r'_4) ϕ(r3′),ϕ(r4′)
d. 将 ϕ ( r 3 ′ ) \phi(r'_3) ϕ(r3′)通過FC層與 ϕ ( r 4 ′ ) \phi(r'_4) ϕ(r4′)融合
e. 将融合後的特征分别通過兩個FC層得到對應的調制向量,分别記為 V 3 m , V 4 m V_{3m},V_{4m} V3m,V4m
f. 測試幀處理方式類似,得到測試幀RoI特征後,分别記為 ϕ ( t 3 ′ ) , ϕ ( t 4 ′ ) \phi(t'_3),\phi(t'_4) ϕ(t3′),ϕ(t4′)
g. ϕ ( t 3 ′ ) \phi(t'_3) ϕ(t3′)和調制向量 V 3 m V_{3m} V3m進行點乘操作得到新的特征圖 ϕ ( t 3 ′ ′ ) \phi(t''_3) ϕ(t3′′), ϕ ( t 4 ′ ) \phi(t'_4) ϕ(t4′)和 V 4 m V_{4m} V4m進行點乘操作得到新的特征圖 ϕ ( t 4 ′ ′ ) \phi({t''_4}) ϕ(t4′′)
h. ϕ ( t 3 ′ ′ ) \phi({t''_3}) ϕ(t3′′)和 ϕ ( t 4 ′ ′ ) \phi({t''_4}) ϕ(t4′′)分别通過FC層之後,得到各自的新特征
i. 将兩者新特征融合,然後連接配接FC得到預測的IoU
3.3 線上分類分支
該分支含有兩個FC層,即
f ( x ; w ) = ϕ 2 ( w 2 ∗ ϕ 1 ( w 1 ∗ x ) ) f(x; w) = \phi_2(w_2 * \phi_1(w_1 * x)) f(x;w)=ϕ2(w2∗ϕ1(w1∗x))
損失函數采用DCF中的常用損失函數
L ( w ) = ∑ j = 1 m r j ∣ ∣ f ( x j ; w ) − y j ∣ ∣ 2 + ∑ k λ k ∣ ∣ w k ∣ ∣ 2 L(w) = \sum_{j=1}^m r_j||f(x_j; w) - y_j||^2 + \sum_k \lambda_k ||w_k||^2 L(w)=∑j=1mrj∣∣f(xj;w)−yj∣∣2+∑kλk∣∣wk∣∣2
y j y_j yj是W * H的高斯響應标簽
數學功底不行,這裡就不詳細解釋了,感興趣的可以去看看原論文
3.3 難樣本挖掘
本節非本文的重點,但是覺得比較有意思,就簡單提一下。它的做法如下:
當出現幹擾時,即響應圖上含有多個高響應點,則将線上更新子產品的學習率調整為原來的兩倍,并且立即進行一次優化。
4. 實驗結果
4.1 消融實驗
4.2 資料集結果
5. 總結
該論文主要解決目标定位問題,認為目标定位是個複雜任務,無法通過簡單的多尺度方式估計位置。是以本文借鑒IoU-Net思想,提出IoU調制子產品和IoU預測子產品,根據參考分支的gt框生成調制向量,将調制向量輸入測試分支,與測試幀的proposal進行點乘操作,得到預測的IoU;除此之外,還加速了線上學習的優化過程,在1080上速度能達到30fps。