ECCV 2018丨YOLO遇上OpenPose，近200FPS的高帧数多人姿态检测

2018-09-10 23:50:00

在高帧数下，如何实现人体姿态检测？

下面这条刷屏的twitter视频给出了答案。

ECCV 2018丨YOLO遇上OpenPose，近200FPS的高帧数多人姿态检测

这是今年ECCV上的一篇名为《Pose Proposal Networks》的论文，作者是日本柯尼卡美能达公司的関井大気（Taiki SEKII），结合了去年CVPR上的YOLO和CMU的OpenPose，创造出的新方法，能够实现高帧数视频中的多人姿态检测。

高帧数，无压力

而其他方法，比如NIPS 2017 的AE（Associative embedding）、ICCV 2017的RMPE（Regional multi-person pose estimation）、CVPR 2017的PAF（Realtime multi-person 2D pose estimation using part affinity fields），都无法实现高帧数尤其是100以上帧数视频的姿态检测。

在COCO数据集上也不虚，相比谷歌PersonLab能在更高帧数下运行。

来看下具体数据，在头、肩、肘部位和整体上半身识别中超过了其他方法，整体得分也不虚。

神奇“体位”大冒险

另外，常规的姿态检测十分容易出错的“体位”中，该方法也可以规避。

比如从天上跳伞下来这种奇怪的姿势：

人数过多的拥挤场景：

还有，两个人重叠的图像。

注意，右侧站立的女子和她前面在瑜伽垫上的人，完完全全分开了，不会闹出下面这种胳膊腿儿搞错的笑话。

原理

这是基于ResNet-18的PPN对多人姿势检测的过程：

a) 输入图像；

b) 从输入图像中检测部分边界框；

c) 检测出肢体；

d) 区分图中每个人。

这篇论文的方法是先将图片分割为较小的网格，使用较小的网络对每一幅网格图片进行单次物体检测范例，之后通过区域提议（region proposal）框架将姿态检测重定义为目标检测问题。

之后，使用单次CNN直接检测肢体，通过新颖的概率贪婪解析步骤，生成姿势提议。

区域提案部分被定义为边界框检测（Bounding Box Detections），大小和被检测人身材成比例，并且可以仅使用公共关键点注释进行监督。

整个架构由单个完全CNN构成，具有相对较低分辨率的特征图，并使用专为姿势检测性能设计的损耗函数直接进行端到端优化，此架构称为姿态提议网络（Pose Proposal Network，PPN）。PPN借鉴了YOLO的优点。

原文发布时间为：2018-09-9

本文作者：凹非寺

本文来自云栖社区合作伙伴“

量子位

”，了解相关信息可以关注“

”。

ECCV 2018丨YOLO遇上OpenPose，近200FPS的高帧数多人姿态检测

继续阅读

Android-opencv之CVCamera

基于ORB特征点匹配的对极几何约束实现（源码+讲解）

使用hector构图_如何使用均衡的构图拍摄更清晰的照片

GMS：基于网格运动统计的快速极度鲁棒的特征匹配摘要1 简介2 本文的方法3 应用于快速记分的网格框架4 实验 5 结论

如何使用前景和背景创建更清晰的照片

在Ubuntu16.04上提取相邻序列图像之间的ORB的特征点，并用暴力方法找到匹配点并连线一、什么是ORB特征二、什么是暴力匹配三、实现代码四、运行方法

Matlab中将二维灰度图像三维显示

车道线检测

自监督｜「CoCLR」视频自监督对比学习笔记

视频对象分割（Video Object Segmentation）研究小记任务定义与数据集技术路线分类基于神经网络的模型总结

opencv视觉跟踪——消除背景建模

图形处理单元(GPU)的演进

2021-09-30三维点云测量正方形包裹体积

DOG算子

K-近邻算法以及图像分类应用

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络