天天看點

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

對目标跟蹤了解的不是很深入,如有問題,請及時指正交流。

SiamMask:實時的線上目标跟蹤與目标分割統一架構

  • 論文位址:https://arxiv.org/pdf/1812.05050.pdf
  • SiamMask的測試代碼:https://github.com/foolwood/SiamMask
  • 項目首頁:http://www.robots.ox.ac.uk/˜qwang/SiamMask.
  • SiamFC:Fully-convolutional siamese networks for object tracking.https://arxiv.org/abs/1606.09549
  • SiamRPN:High performance visual tracking with siamese region proposal network https://arxiv.org/abs/1812.11703

摘要

在本文中,我們将介紹如何使用一種簡單的方法實時對進行目标跟蹤和半監督視訊對象分割。我們的方法,稱為SiamMask。通過在損失上增加目标分割的損失,改進了流行的全卷積網絡Siamese跟蹤方法的離線訓練過程。經過訓練,SiamMask完全依賴于初始化單個邊界框并線上操作,産生類别未知的目标分割mask和實時每秒35幀的旋轉邊界框。盡管它的簡單性,多功能性和快速性,我們的政策使我們能夠在VOT-2018上建立一個新的最先進的實時跟蹤器,同時展示了競争性和在DAVIS-2016和DAVIS-2017上半監督視訊目标分割的最佳速度。

1、介紹

       跟蹤是任何視訊應用中的基本任務,需要對感興趣的對象進行一定程度的推理,因為它允許在幀之間建立目标對應關系。它可用于各種場景,如自動監視,車輛導航,視訊标簽,人機互動和行為識别。在第一幀中給定視訊中的任意感興趣目标的位置,視覺目标跟蹤的目的是估計其在所有後續幀中的位置。

      對于許多應用程式,重要的是可以在視訊流中線上執行目标跟蹤。換句話說,跟蹤器不應該利用未來的幀來推斷目标的目前位置。這是由可視對象跟蹤标準描繪的場景,它使用簡單的軸對齊或旋轉邊界框來表示目标對象。這種簡單的注釋有助于降低資料标記的成本;更重要的是,它允許使用者簡單的初始化後快速的執行。

       與目标跟蹤類似,半監督視訊目标分割(VOS)的任務需要在視訊的第一幀中估計任意指定目标的位置。然而,在這種情況下,目标表示由二進制分割掩碼組成,該掩碼表示每個像素是否屬于目标。對于像素級資訊的應用,例如視訊編輯等,這種像素級詳細表示更為理想。可以了解,生成像素級估計需要比簡單邊界框更多的計算資源。是以,VOS方法傳統上很慢,每幀通常需要幾秒鐘。最近,人們對更快的方法産生了興趣。但是,即使是最快的仍然無法實時操作。

        在本文中,我們旨在通過提出SiamMask縮小任意目标跟蹤與VOS之間的差距,SiamMask是一種簡單的多任務學習方法,可用于解決這兩個問題。我們的方法是基于在數百萬對視訊幀上離線訓練的全卷積網絡Siamese的快速跟蹤方法的成功以及最近可用的像素注釋的大型視訊資料集(YouTube- VOS )。我們的目标是保留這些方法的離線可訓練性和線上速度,同時顯着改進目标。

        為了實作這一目标,我們同時在三個任務上訓練Siamese網絡,每個任務對應于不同的方法,以在新幀中建立目标和候選區域之間的對應關系。正如Bertinetto等人的全卷積方法一樣,一個任務是以滑動視窗的方式學習目标和多個候選框之間的相似性度量。輸出是一個密集的響應圖,它隻訓示目标的位置,而不提供有關其空間範圍的任何資訊。為了完善這些資訊,我們同時學習了另外兩個任務:使用Region Proposal Network [52,31]和classagnostic binary segmentation[49]進行邊界框回歸。值得注意的是,二進制标簽僅在離線訓練期間用于計算分割的損失而用在跟蹤上。在我們提出的架構中,每個任務由不同的分支表示,不同的分支共享CNN并都對最終的損失有幫助,使他們三個輸出的和。

         經過訓練,SiamMask完全依賴于初始化的單個邊界框,無需更新即可線上操作,并以每秒35幀的速度生成分割mask和旋轉邊界框。盡管SiamMask具有簡單和快速的特點,但它在VOT-2018上為實時物體跟蹤問題建立了一種新的先進技術。此外,此方法與DAVIS-2016和DAVIS-2017上最近的半監督VOS方法相比也具有很強的競争力,同時也是最快的。這個結果是通過簡單的邊界框初始化實作的,并且沒有采用VOS方法常用的昂貴技術,如微調,資料增強和光流。

         本文的其餘部分如下。第2節簡要概述了一些先前工作;第3節描述了我們的方法;第4節對四個基準進行了評估,并說明了幾個消融研究;第5節總結。

3、方法

       為了實作線上可操作性和快速性,我們采用了全卷積的Siamese架構。此外,為了說明我們的方法與先前方法無關,我們以流行的SiamFC 和SiamRPN為兩個代表性例子說明。我們首先在3.1節介紹它們,然後在3.2節描述我們的方法。

3.1 全卷積Siamese

SiamFC:建議使用離線訓練的完全卷積Siamese網絡作為跟蹤系統的基本建構塊,該網絡将示例圖像z與搜尋圖像x(較大)進行比較以獲得密集響應圖。 z和x分别是以目标對象為中心的w×h裁剪圖像和以目标的最後估計位置為中心的較大裁剪圖像。兩個輸入由相同的CNN fθ處理,産生兩個互相關的特征圖。

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

  公式1

在本文中,我們将響應圖的每個空間元素(等式1的左側)稱為response of a candidate window 候選視窗的響應(RoW)。例如,

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

編碼得到示例圖檔z和搜尋視窗x中第n個候選視窗之間的相似性。對于SiamFC,目标是使響應圖的最大值就對應于搜尋區域x中的目标位置。本文中,為了允許每個RoW編碼得到關于目标的更豐富的資訊,我們用depth-wise crosscorrelation替換了公式1的簡單互相關,産生多通道響應圖。SiamFC在數百萬視訊幀上離線訓練使用Logistic損失,我們将其稱為Lsim。

SiamRPN。依靠區域建議網絡(RPN)大大提高了SiamFC的性能,該網絡允許使用可變長寬比的邊界框估計目标位置。特别地,在SiamRPN中,每個RoW編碼得到一組k個anchor box和對應的目标/背景分數。是以,SiamRPN輸出框預測與分類分數并行輸出。兩個輸出分支使用平滑L1和交叉熵損失訓練。在下文中,我們分别将它們稱為Lbox和Lscore。

3.2、SiamMask

        與依賴低保真表示的現有跟蹤方法不同,我們讨論了生成每幀二分割Mask的重要性。為此目的,我們表明,除了相似性得分和邊界框坐标之外,完全卷積Siamese網絡的RoW還可以編碼産生像素級的掩模資訊。這可以用額外的分支和Loss擴充現有的Siamese跟蹤網絡(也就是SiamRPN的擴充)來實作。

        我們使用具有可學習參數φ的簡單的兩層神經網絡hφ對每個RoW預測w×h二進制掩模。令

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

表示對應于第n個RoW的預測mask,則可表示為:

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

公式2

上式我們可以看到,mask預測是x的從圖像到分割和z中的目标對象的函數。以這種方式,z可以用作參考指導分割過程,使得任意類的目标可以被跟蹤。這清楚地意味着,給定不同的搜尋圖像z,網絡将為x産生不同的分割mask。

損失函數。在訓練期間,每個RoW用真實的二進制标簽

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

标記并且還與尺寸為w×h的像素級的Mask cn相關。

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

表示在第n個

候選區域(i,j)像素對應的物體mask。對于分割任務的損失函數用所有RoW的邏輯回歸損失的和表示。

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

注意,此損失函數隻在yn=1時有意義,即隻計算RoW包含目标的情況下。

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

由w*h分類器組成,每個判斷候選視窗中的給定像素是否屬于目标。

Mask representation。與FCN 和Mask R-CNN語義分割方法相比,這包含了明确的空間資訊,并從扁平化的目标表示開始生成mask。特别地,在這種情況下,該表示對應于

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

通過depth-wise cross-correlation生成的1×1×256的RoW中的一個。重要的是,分割任務的網絡

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

由兩個1×1卷積層組成,一個具有256個,另一個具有

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

個通道。這允許每個像素分類器利用整個RoW中包含的資訊,進而對x中的候選視窗有完整的考慮,這對于消除看起來像目标的執行個體之間的歧義是關鍵的,也被稱為幹擾物。為了生成更精确的分割圖像,我們遵循[50]的政策,該政策使用由upsampling和skip connections組成的多個細化子產品來合并低分辨率和高分辨率特征。更多細節可以在附錄A中找到。

兩個變體。對于我們的實驗,我們使用我們的分割分支和損失Lmask來擴充SiamFC和SiamRPN的體系結構,獲得我們稱之為SiamMask的兩分支和三分支變體。我們分别優化了多任務損失L2B和L3B,定義如下:

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

我們建議讀者閱讀2.2小節的Lsim和3.2小節的Lbox和Lscore。對于L3B,如果anchor與真實的box有至少0.6IOU則是正例,否則是負例。對于L2B,我們采用SiamFC相同的政策來定義正樣本和負樣本。我們沒有搜尋公式4 、5的超參數。簡單地設定λ1= 32,λ2=λ3= 1。box和score輸出的特定任務分支由兩個1×1卷積層構成。圖2說明了SiamMask的兩個變體。

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

Box generation。請注意,雖然VOS基準測試需要二進制mask,但典型的跟蹤基準測試(如VOT )需要一個邊界框作為目标的最終表示。我們考慮三種不同的政策從二進制mask生成邊界框(下圖):( 1)軸對齊邊界矩形(Min-max),(2)旋轉最小邊界矩形(MBR)和(3)用于VOT-2016(Opt)中提出的自動邊界框生成的優化政策。我們在第4節(表1)中對這些方案進行了實證評估。

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

我們測試了三種通過mask來找bounding box的方案,紅色是軸對齊(Min-max),即像素的最大最小值,是以都是矩形框,綠色框是旋轉最小邊界矩形(MBR),藍色框是The visual object tracking vot2016 chal-lenge results.論文中提出的一種邊界框的優化算法,叫做Opt。

4、實驗

      在本節中,我們評估了在兩個相關任務上的方法:視覺目标跟蹤(在VOT-2016和VOT-2018上)和半監督視訊目标分割(在DAVIS2016和DAVIS-2017上)。我們分别用SiamMask-2B和SiamMask來指代我們的雙分支和三分支變體。

4.1、目标跟蹤

資料集和設定。我們采用兩個廣泛使用的資料集來評估目标跟蹤:VOT2016 和VOT-2018 ,兩者都用旋轉的邊界框注釋。我們使用VOT-2016進行實驗,以了解不同類型的表示如何影響性能。對于第一個實驗,我們使用平均IOU和平均精度(AP)@{0.5,0.7}。然後,我們使用官方VOT工具和一種考慮跟蹤準确和魯棒的名額EAO與VOT-2018的最新技術進行比較。

目标box generation表示有多重要?現有的跟蹤方法通常預測具有固定大小或可變長寬比的軸對齊邊界框。我們感興趣的是了解生成每幀mask可以在多大程度上改善跟蹤。為了專注于表示的準确性,對于該實驗,我們僅忽略時間方面,随機采樣視訊幀。以下段落中描述的方法在來自VOT-2016視訊序列的随機裁剪的搜尋塊(具有一定的位移與變形)上進行測試。

        在表1中,我們使用Min-max,MBR和Opt方法比較我們的三分支變體。我們還報告了SiamFC和SiamRPN的結果,作為固定和可變長寬比方法的代表,以及三個可以通路每幀真實資訊的oracles,并作為不同表示政策的上限。

CVPR2019論文翻譯與了解 :Fast Online Object Tracking and Segmentation: A Unifying ApproachSiamMask:實時的線上目标跟蹤與目标分割統一架構未完待續

       表1顯示,無論使用哪種box生成政策,我們的方法都能達到最佳mIOU。盡管SiamMask-Opt提供了最高的IOU和mAP,但由于其優化過程緩慢,需要大量的計算資源。相反,我們采用MBR政策(其計算開銷可忽略不計)用于我們的最終目标跟蹤評估。 SiamMaskMBR在0.5IOU下mAP達到了85.4,對應SiamFC和SiamRPN提升了+29和+9.2。有趣的是,當在0.7 IOU的較高準确度方案中考慮mAP時,差距擴大:分别為+41.6和+18.4。值得注意的是,我們的準确性結果與固定的Oracle相差無幾。此外,比較由oracles表示的上限性能,可以注意到,通過簡單地改變邊界框表示,可以有很大的改進空間(例如,固定寬高比和 MBR oracles之間有+ 10.6%的mIOU提升)。

     總的來說,這項研究表明,從目标的Mask獲得旋轉邊界框的MBR政策比簡單地提供軸對齊邊界框有顯着的優勢。

未完待續

繼續閱讀