天天看點

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

目錄

.1 intro

.2 Dataset

 2.1 data collection:

2.2 data annotation

2.3 evaluation

.3 backbone 

3.1 Training and Inference

3.2 Experiment

References

.1 intro

contribution:

  1. 一個具有統一評價體系的大規模抓取姿态檢測資料集
  2. 評估系統通過解析計算直接報告抓取是否成功,它可以評估任何一種抓取姿勢,而不需要窮盡地标注ground truth
  3. 一種end2end的抓取姿态預測網絡,在該網絡中,以一種确定的方式來學習逼近方向和操作參數。
  4. 為了提高抓取的穩健性,設計了一種新型抓取親和場。

Intro:

難點1.抓取姿态有不同的表示,包括矩形和6D姿态表示

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

 難點2:很難獲得大規模高品質的訓練資料

創新:

1.建構資料集的方法。我們用真實世界的傳感器收集資料,并通過解析計算為每個單獨的物體标注抓取姿勢。手動注釋對象6D姿勢以将抓取姿勢從對象坐标投影到場景坐标。這種方法極大地減少了标注抓握姿勢的勞動。我們的資料集既有密集的注釋,又與真實世界視覺上一緻。

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

2.為了更好地進行幾何推理和上下文編碼,我們提出了一種端到端的3D抓取姿态檢測網絡。該網絡不是直接預測抓取姿态矩陣,而是尋求一種更穩健的學習方式,在統一目标下顯式學習逼近方向和操作參數(如面内旋轉、抓取寬度)。它采用了一種新的抓取姿勢表示,而不是直接回歸

3.此外,為了提高抓取姿态的抗擾性,提出了抓取親和場的新表示法,使網絡具有較強的抗擾動能力。

下圖為論文解決思路

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

related work:

1.基于抓取預測算法的深度學習

->根據圖像輸入檢測可抓取的矩形(基于平面)

->基于6D位姿估計,并将預先定義的抓握姿勢投射到場景中(需要預先知道抓取物體的形狀)

->在部分觀察到的點雲上抓取候選對象,并使用3D CNN輸出每個候選對象的分類分數。

2.抓取資料集

-> 矩形标注(人工标注)的抓取資料集(cornell)

-> 用機器人執行抓取,獲得抓取資料集(google那篇工作)

-> 仿真标注(dex-net) ,但是問題是傳感器差距會導緻問題

-> 像素級标注affordance(GraspSeg)

3.基于點雲的深度學習

-> 原始點雲學習(PointNet)

-> 分割分類(Point系列)

->抓取位置預測(S4G)

.2 Dataset

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

該資料集包含88個具有高品質3D網格模型的日常對象。這些圖像是從190個雜亂的場景中收集的,每個場景都貢獻了兩個不同攝像頭拍攝的512張RGB-D圖像,總共帶來了97,280張圖像。

對于每幅圖像,通過力閉合的解析計算來密集地标注6-DOF抓取姿勢[29]。每個場景的抓握姿勢從300萬到900萬不等,我們的資料集總共包含超過11億個抓握姿勢。

此外,還提供了精确的對象6D姿勢标注、基于矩形的抓取姿勢、對象蒙版和包圍盒。每一幀還與一個相機姿勢相關聯,是以可以很容易地融合多個視點雲。

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

 2.1 data collection:

場景設定:對于每個場景,我們從整個對象集中随機挑選大約10個對象,并以雜亂的方式放置它們。

标定方式:相機在機械臂上。

2.2 data annotation

6D Pose Annotation:

每個場景的第一幀注釋6D姿勢。6d姿态将傳播到剩餘幀。

grasp pose annotation:

力閉合

2.3 evaluation

資料集拆分:共190個場景,100個用于訓練集,90個用于測試集。測試集中30個用于見過的物體,30個用于沒見過但相似的物體,30個用于新物體。

對于每個預測的抓取姿勢ˆPI,我們通過檢查抓取器内部的點雲将其與目标對象相關聯。然後,類似于抓取标注的生成過程,在給定不同的µ的情況下,我們可以通過力閉合度量得到每個抓取姿勢的二進制标簽。

.3 backbone 

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

end2end網絡架構;

點雲輸入然後編碼提取M個點然後解碼輸出這M個點

采用PointNet++,N×3大小的原始點雲作為輸入,輸出一組新的具有C個特征的點(3+c)

輸入M個(3+c)通過Approachnet,輸出M個(2+v),2表示是否可掌握的二進制類,V表示預定義接近向量的數量。

組合M個(3+c)和M個(2+v)--生成圓柱形的抓取區域,每個區域裡ni個抓取點(ni*(3+c))

把ni*(3+c)[圓柱區域]輸入Operation Network和Tolerance Network

Operation Network 把ni*(3+c)分成K個區域 每個區域有R個抓取位姿 輸出 K個R*3

Tolerance Network 篩選出好的抓取位姿 輸出 每個K最好的R

最後結合 Operation Network和Tolerance Network的輸出進行過濾,輸出K個Grasps

Loss Function 候選點可以被抓取條件:

1.點是否在物體上

2.在半徑5mm的範圍内至少具有一個可抓取ground-truth

3.1 Training and Inference

通過根據抓取分數将抓取姿勢劃分為10個類來優化抓取姿勢

最後inference的時候,輸入點輸出可抓取位姿

3.2 Experiment

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:
GraspNet-1Billion.1 intro.2 Dataset.3 backbone References:

References:

論文閱讀|GraspNet-1Billion - 知乎

繼續閱讀