Alejandro Newell, Kaiyu Yang, and Jia Deng University of Michigan, Ann Arbor 2016.7
https://github.com/raymon-tian/hourglass-facekeypoints-detection
摘要
這項工作介紹了一種新的卷積網絡結構的任務,人體姿态估計。對所有比例的特征進行處理和整合,以最好地捕捉與身體相關的各種空間關系。我們展示了重複的自下而上、自上而下的處理與中間監管相結合對于提高網絡性能的重要性。我們将該架構稱為“堆疊沙漏”網絡,其基礎是池化和上采樣的連續步驟,這些步驟用于生成最終的預測集。FLIC和MPII基準達到了最先進的結果,超過了所有最近的方法。
我們的工作隻專注于從RGB圖像中定位單個人姿勢的關鍵點的任務。
該網絡使用Torch7 [48]進行訓練,為了優化,我們使用學習率為2.5e-4的rmsprop [49]。在12 GB的NVIDIA TitanX GPU上訓練大約需要3天。在驗證準确性穩定後,我們将學習率降低了5倍。批處理規範化[13]也用于改進訓練。網絡的一次正向傳遞需要75毫秒,為了生成最終的測試預測,我們通過網絡運作原始輸入和圖像的翻轉版本,并對熱圖進行平均(驗證平均提高1%)。網絡的最終預測是給定關節的熱圖的最大激活位置。
評估
評估使用标準的正确關鍵點百分比(PCK)度量來完成,該度量報告落在地面真實值的歸一化距離内的檢測百分比。對于前視紅外成像,距離由軀幹大小歸一化,而對于MPII,距離由頭部大小的一部分歸一化。