天天看點

Fast—CNN特點

何凱明(Kaiming He)是 ResNet 作者之一、Facebook AI 實驗室研究科學家。最近,他的最新研究成果Mask R-CNN公布,這是一個概念上簡單,靈活,而且通用的對象執行個體分割架構,在 COCO 的執行個體分割,邊界框對象檢測,人物關鍵點檢測 3個任務上均優于現有的單一模型。

論文下載下傳:https://arxiv.org/pdf/1703.06870.pdf

摘要

我們提出一個概念上簡單,靈活,而且通用的對象執行個體分割架構(object instance segmentation)。我們的方法能有效檢測圖像中的對象,同時為每個執行個體生成高品質的分割掩膜(segmentation mask)。我們将該方法稱為 Mask R-CNN,是在 Faster R-CNN 上的擴充,即在用于邊界框識别的現有分支上添加一個并行的用于預測對象掩膜(object mask)的分支。

Mask R-CNN 的訓練簡單,僅比 Faster R-CNN 多一點系統開銷,運作速度是 5 fps。此外,Mask R-CNN很容易推廣到其他任務,例如可以用于在同一個架構中判斷人的姿勢。我們在 COCO 競賽的3個任務上都得到最佳結果,包括執行個體分割,邊界框對象檢測,以及人物關鍵點檢測。沒有使用其他技巧,Mask R-CNN 在每個任務上都優于現有的單一模型,包括優于 COCO 2016 競賽的獲勝模型。我們希望這個簡單而有效的方法将成為一個可靠的基準,有助于未來的執行個體層面識别的研究。我們将會公開相關代碼。

Mask R-CNN

圖1:用于執行個體分割的 Mask R-CNN 架構

Mask R-CNN 在概念上是簡單的:Faster R-CNN 對每個候選對象有兩個輸出,即一個類标簽和一個邊界框偏移值。我們在 Faster R-CNN 上添加了第三個分支,即輸出對象掩膜(object mask)。是以,Mask R-CNN 是一種自然而且直覺的想法。但添加的 mask 輸出與類輸出和邊界框輸出不同,需要提取對象的更精細的空間布局。Mask R-CNN 的關鍵要素包括 pixel-to-pixel 對齊,這是 Fast/Faster R-CNN 主要缺失的一塊。

圖2:在 COCO 測試集上的 Mask R-CNN 的結果。這些結果基于 ResNet-101,實作了 35.7 的 mask AP,運作速度是 5 fps。圖中,掩膜(mask)用彩色顯示,也顯示了邊界框,類标簽和置信度。

放大看看:

圖3:Head 架構:我們擴充了兩個已有的 Faster R-CNN 的頭(head)。左圖和右圖分别展示了 ResNet C4 和 FPN 主幹的 head。可以看到上面增加了一個 mask 分支。圖中的數字表示空間分辨率和信道,箭頭表示卷積(conv),去卷積(deconv)或全連接配接層(fc)。

實驗:執行個體分割

我們對 Mask R-CNN 和目前 state-of-the-art 的架構進行了全面的比較。所有實驗都使用 COCO 資料集。我們使用标準 COCO 名額,包括 AP(超過 IoU 門檻值的平均值),AP50,AP75 和 APS,APM,APL(不同規模的 AP)。除非另有說明,AP 使用 mask loU 進行評估。

4.1 主要結果

我們将 Mask R-CNN 與表1中的在執行個體分割任務上是 state-of-the-art 的方法進行比較。我們的模型的所有執行個體表現都優于這些模型的基線變體。包括 MNC 和 FCIS,這兩個模型分别是COCO 2015 和 2016 競賽中分割任務的冠軍。

圖4:COCO測試圖像上Mask R-CNN的更多結果,使用 ResNet-101-FPN 并以 5 fpi 運作,得到 35.7 mask AP(見表1)。

表1:COCO test-dev上的執行個體分割 mask AP。

Mask R-CNN 的輸出結果顯示在圖 2 和 圖 4。可以看到,Mask R-CNN 即使在有挑戰性的條件上也獲得了良好的效果。圖 5 比較了我們的 Mask R-CNN 基線和 FCIS +++。 FCIS +++ 在重疊的執行個體上顯示出系統的僞影(artifacts),表明它在執行個體分割的這個根本難題上受到挑戰。Mask R-CNN 沒有顯示出那樣的僞影。

圖5:FCIS +++(上)vs. Mask R-CNN(下,ResNet-101-FPN)。FCIS 在面對重疊對象時顯示出系統的僞影。

4.2 Ablation 實驗

我們進行了一系列 ablation 實驗分析 Mask R-CNN,結果示于表2,詳細讨論請參見論文。

表2:Mask R-CNN 的 ablation。在 trainval35k 上訓練,在 minival 上測試,并報告了 mask AP,除非另有說明。

4.3 邊界框檢測結果

我們将 Mask R-CNN 與表3中的目前 state-of-the-art 的 COCO 邊界框對象檢測模型進行比較。結果顯示,即使被訓練的是完整的 Mask R-CNN 模型,也隻有分類輸出和邊界框輸出被用于推理(mask 輸出被忽略了)。使用 ResNet-101- FPN 的 Mask R-CNN 優于所有目前最先進模型的變體,包括 GRMI 的單模型變體,這是 COCO 2016 競賽檢測任務的冠軍。 使用 ResNeXt-101-FPN,Mask R-CNN 進一步提升了結果。

表3:在 test-dev 上對象檢測的單模型結果(邊界框 AP),vs 目前最優模型。

Mask R-CNN 用于人體姿勢估計

我們的架構可以很友善地擴充用于人體姿勢估計(Human Pose Estimation)。我們将關鍵點的位置模組化為 one-hot mask,采用 Mask R-CNN 來預測每個 K 關鍵點類型(例如左肩,右肘)的 K mask。這個任務證明了 Mask R-CNN 的靈活性。

共同學習所有三個任務使得一個統一的系統能同時有效預測所有輸出(圖6)。

圖6:使用 Mask R-CNN(ResNet-50-FPN)在 COCO 測試集上的關鍵點檢測結果,具有同一個模型預測的人物分割掩膜。該模型實作了 63.1 的關鍵點 AP,運作速度為 5 fps。

鑒于 Mask R-CNN 在提取對象邊界框,掩膜,以及關鍵點上都有效,我們期待它成為其他執行個體層面任務的有效架構。