天天看點

注解版:基于動态骨骼的動作識别方法ST-GCN(時空圖卷積網絡模型)

原文連結:解讀:基于動态骨骼的動作識别方法ST-GCN(時空圖卷積網絡模型)

注解版:基于動态骨骼的動作識别方法ST-GCN(時空圖卷積網絡模型)
在本文中,通過将圖卷積網絡擴充到時空圖模型,設計用于行為識别的骨骼序列通用表示,稱為時空圖卷積網絡(ST-GCN)。如圖 2 所示,該模型是在骨骼圖序列上制定的,其中每個節點對應于人體的一個關節。圖中存在兩種類型的邊,即符合關節的自然連接配接的空間邊(spatial edge)和在連續的時間步驟中連接配接相同關節的時間邊(temporal edge)。在此基礎上建構多層的時空圖卷積,它允許資訊沿着空間和時間兩個次元進行整合。
注解版:基于動态骨骼的動作識别方法ST-GCN(時空圖卷積網絡模型)
  • 早期基于骨骼進行動作識别的方法隻是在各個時間步驟使用關節坐标形成特征向量,ST-GCN将關節轉為結點,骨骼轉化為邊,構成了G=<V,E>圖,可以連接配接時間與空間。
  • 可以這麼看,原先是時間t0的人體骨骼圖,将關節轉為結點,骨骼轉為邊,形成一個二維圖,然後再講t0的1結點與t1的1結點相連,t1的1結點與t2的1結點相連,以此類推連接配接成一個時間空間三維圖,即ST-GCN圖

2.1 通道

基于骨骼的資料可以從運動捕捉裝置或視訊的姿态估計算法中獲得。通常來說,資料是一系列的幀,每一幀都有一組聯合坐标。給定 2D 或 3D 坐标系下的身體關節序列,我們就能構造一個時空圖。其中,人體關節對應圖的節點,人體身體結構的連通性和時間上的連通性對應圖的兩類邊。是以,ST-GCN 的輸入是圖節點的聯合坐标向量。這可以被認為是一個基于圖像的 CNN 模拟,其中輸入由 2D 圖像網格上的像素強度矢量形成。對輸入資料應用多層的時空圖卷積操作,可以生成更進階别的特征圖。然後,它将被标準的 SoftMax 分類器分類到相應的動作類别。整個模型用反向傳播進行端對端方式的訓練。現在,我們将介紹 ST-GCN 模型的各個部分。

  • ST-GCN是基于CNN誕生的,但是在CNN基礎上多出了一個次元
  • 端對端即輸入原始資料輸出最終結果,原來輸入端不是直接的原始資料,而是在原始資料中提取的特征。
  • 傳統的方式與端對端的差別—— 前者是半成品到成品,後者是原料到成品
下述讨論建立在這種讨論上。設一個大小為K x K的卷積核,輸入圖像為fin ,通道數為c。單個通道在位置x的輸出:
注解版:基于動态骨骼的動作識别方法ST-GCN(時空圖卷積網絡模型)
注解版:基于動态骨骼的動作識别方法ST-GCN(時空圖卷積網絡模型)
  • 輸入函數fin中,x代表中心點的位置,h,w為以X為中心點的高度和寬度,w(h,w)為設定的權重,
  • 至于p’(w,h)函數,咨詢王老師後,王老師的意見是這個函數寫的不規範
  • 輸入圖像上的所有濾鏡權重共享:因為是用同一個權重掃描。
  • functionB(Vti)此處應該是寫錯了,應該是選取距離小于等于定值D的點。
  • 關于卷積方面不了解的可以參考這兩篇文章:

    CNN卷積神經網絡入門基礎知識

    淺析CNN卷積神經網絡feature map

在兩個資料集的三個測試協定上,ST-GCN 相比現有方法在識别精度上均有很大提高,具體結果可見表。
  • 原文中缺少的表
    注解版:基于動态骨骼的動作識别方法ST-GCN(時空圖卷積網絡模型)

繼續閱讀