在高幀數下,如何實作人體姿态檢測?
下面這條刷屏的twitter視訊給出了答案。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLlJTN0EDNxQmYidDMwEWY5ETYxUDOxkjN4QzY3YmNmNWOjFWM0gDM28CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
這是今年ECCV上的一篇名為《Pose Proposal Networks》的論文,作者是日本柯尼卡美能達公司的関井大気(Taiki SEKII),結合了去年CVPR上的YOLO和CMU的OpenPose,創造出的新方法,能夠實作高幀數視訊中的多人姿态檢測。
高幀數,無壓力
而其他方法,比如NIPS 2017 的AE(Associative embedding)、ICCV 2017的RMPE(Regional multi-person pose estimation)、CVPR 2017的PAF(Realtime multi-person 2D pose estimation using part affinity fields),都無法實作高幀數尤其是100以上幀數視訊的姿态檢測。
在COCO資料集上也不虛,相比谷歌PersonLab能在更高幀數下運作。
來看下具體資料,在頭、肩、肘部位和整體上半身識别中超過了其他方法,整體得分也不虛。
神奇“體位”大冒險
另外,正常的姿态檢測十分容易出錯的“體位”中,該方法也可以規避。
比如從天上跳傘下來這種奇怪的姿勢:
人數過多的擁擠場景:
還有,兩個人重疊的圖像。
注意,右側站立的女子和她前面在瑜伽墊上的人,完完全全分開了,不會鬧出下面這種胳膊腿兒搞錯的笑話。
原理
這是基于ResNet-18的PPN對多人姿勢檢測的過程:
a) 輸入圖像;
b) 從輸入圖像中檢測部分邊界框;
c) 檢測出肢體;
d) 區分圖中每個人。
這篇論文的方法是先将圖檔分割為較小的網格,使用較小的網絡對每一幅網格圖檔進行單次物體檢測範例,之後通過區域提議(region proposal)架構将姿态檢測重定義為目标檢測問題。
之後,使用單次CNN直接檢測肢體,通過新穎的機率貪婪解析步驟,生成姿勢提議。
區域提案部分被定義為邊界框檢測(Bounding Box Detections),大小和被檢測人身材成比例,并且可以僅使用公共關鍵點注釋進行監督。
整個架構由單個完全CNN構成,具有相對較低分辨率的特征圖,并使用專為姿勢檢測性能設計的損耗函數直接進行端到端優化,此架構稱為姿态提議網絡(Pose Proposal Network,PPN)。PPN借鑒了YOLO的優點。
原文釋出時間為:2018-09-9
本文作者:凹非寺
本文來自雲栖社群合作夥伴“
量子位”,了解相關資訊可以關注“
”。