ECCV 2018丨YOLO遇上OpenPose，近200FPS的高幀數多人姿态檢測

2018-09-10 23:50:00

在高幀數下，如何實作人體姿态檢測？

下面這條刷屏的twitter視訊給出了答案。

ECCV 2018丨YOLO遇上OpenPose，近200FPS的高幀數多人姿态檢測

這是今年ECCV上的一篇名為《Pose Proposal Networks》的論文，作者是日本柯尼卡美能達公司的関井大気（Taiki SEKII），結合了去年CVPR上的YOLO和CMU的OpenPose，創造出的新方法，能夠實作高幀數視訊中的多人姿态檢測。

高幀數，無壓力

而其他方法，比如NIPS 2017 的AE（Associative embedding）、ICCV 2017的RMPE（Regional multi-person pose estimation）、CVPR 2017的PAF（Realtime multi-person 2D pose estimation using part affinity fields），都無法實作高幀數尤其是100以上幀數視訊的姿态檢測。

在COCO資料集上也不虛，相比谷歌PersonLab能在更高幀數下運作。

來看下具體資料，在頭、肩、肘部位和整體上半身識别中超過了其他方法，整體得分也不虛。

神奇“體位”大冒險

另外，正常的姿态檢測十分容易出錯的“體位”中，該方法也可以規避。

比如從天上跳傘下來這種奇怪的姿勢：

人數過多的擁擠場景：

還有，兩個人重疊的圖像。

注意，右側站立的女子和她前面在瑜伽墊上的人，完完全全分開了，不會鬧出下面這種胳膊腿兒搞錯的笑話。

原理

這是基于ResNet-18的PPN對多人姿勢檢測的過程：

a) 輸入圖像；

b) 從輸入圖像中檢測部分邊界框；

c) 檢測出肢體；

d) 區分圖中每個人。

這篇論文的方法是先将圖檔分割為較小的網格，使用較小的網絡對每一幅網格圖檔進行單次物體檢測範例，之後通過區域提議（region proposal）架構将姿态檢測重定義為目标檢測問題。

之後，使用單次CNN直接檢測肢體，通過新穎的機率貪婪解析步驟，生成姿勢提議。

區域提案部分被定義為邊界框檢測（Bounding Box Detections），大小和被檢測人身材成比例，并且可以僅使用公共關鍵點注釋進行監督。

整個架構由單個完全CNN構成，具有相對較低分辨率的特征圖，并使用專為姿勢檢測性能設計的損耗函數直接進行端到端優化，此架構稱為姿态提議網絡（Pose Proposal Network，PPN）。PPN借鑒了YOLO的優點。

原文釋出時間為：2018-09-9

本文作者：凹非寺

本文來自雲栖社群合作夥伴“

量子位

”，了解相關資訊可以關注“

”。

ECCV 2018丨YOLO遇上OpenPose，近200FPS的高幀數多人姿态檢測

繼續閱讀

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

K-近鄰算法以及圖像分類應用

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡