借助CenterNet以熱圖的形式傳播先前可靠的長期檢測以提高後面的圖像的結果
ECV2020
論文位址:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700222.pdf
1. 總述
當直接用靜态圖像目标檢測器應用于視訊流時,由于運動模糊或物體外觀不完整而導緻的采樣圖像品質問題(視訊通常包含移動的物體或在攝影機移動時表示運動。這會導緻低圖像品質)對檢測性能有不良影響。然而,視訊中包含時間資訊,例如同一物體在連續幀中的一緻性。利用這些資訊來補償圖像品質缺陷是值得考慮的。
現有視訊目标檢測方法一般是使用兩階段目标檢測器,而兩階段檢測器速度慢,達不到實時;而一階段方法用于視訊低效甚至不可行(時間資訊融合不太适用于一階段檢測器)。本文以CenterNet為基礎,以熱圖的形式傳播先前可靠的長期檢測以提高後面的圖像的檢測結果。
具體來說:對于視訊片段的一幀,将穩定檢測到的目标轉化為傳播熱圖。在得到的熱圖中,用每個物體對應的類的置信度來突出每個物體中心的潛在位置。對于下一幀,生成平衡熱圖,同時考慮傳播熱圖和網絡輸出熱圖。
2. Heatmap Propagation
- 首先在每一個峰值,擴大方形核大小從 ( 2 P + 1 ) (2P+1) (2P+1)到 ( 2 P + 1 ) 2 − 1 (2P+1)^2 -1 (2P+1)2−1得到擴充的熱圖
- 然後通過在每個位置和類别保持最大值将m個擴充的熱圖重疊為1個傳播熱圖,這樣,即使物體可能存在遮擋,但物體的中心很少位于同一點上。是以,保持檢測結果最大化的方法仍然有效
- 最後融合網絡的輸出— t + 1 t+1 t+1幀的熱圖和 t t t幀的傳播熱圖,為了對圖像的大變化具有魯棒性,将最終熱圖設定為網絡的長期熱圖和即時檢測熱圖之間的平衡:
3. 實驗
(1)在ImageNet VID資料集上的SOTA對比
(2)消融實驗