.1 intro

.2 Dataset

2.1 data collection：

2.2 data annotation

2.3 evaluation

.3 backbone

3.1 Training and Inference

3.2 Experiment

References

.1 intro

contribution:

一個具有統一評價體系的大規模抓取姿态檢測資料集
評估系統通過解析計算直接報告抓取是否成功，它可以評估任何一種抓取姿勢，而不需要窮盡地标注ground truth
一種end2end的抓取姿态預測網絡，在該網絡中，以一種确定的方式來學習逼近方向和操作參數。
為了提高抓取的穩健性，設計了一種新型抓取親和場。

Intro：

難點1.抓取姿态有不同的表示，包括矩形和6D姿态表示

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

難點2：很難獲得大規模高品質的訓練資料

創新：

1.建構資料集的方法。我們用真實世界的傳感器收集資料，并通過解析計算為每個單獨的物體标注抓取姿勢。手動注釋對象6D姿勢以将抓取姿勢從對象坐标投影到場景坐标。這種方法極大地減少了标注抓握姿勢的勞動。我們的資料集既有密集的注釋，又與真實世界視覺上一緻。

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

2.為了更好地進行幾何推理和上下文編碼，我們提出了一種端到端的3D抓取姿态檢測網絡。該網絡不是直接預測抓取姿态矩陣，而是尋求一種更穩健的學習方式，在統一目标下顯式學習逼近方向和操作參數(如面内旋轉、抓取寬度)。它采用了一種新的抓取姿勢表示，而不是直接回歸

3.此外，為了提高抓取姿态的抗擾性，提出了抓取親和場的新表示法，使網絡具有較強的抗擾動能力。

下圖為論文解決思路

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

related work:

1.基于抓取預測算法的深度學習

->根據圖像輸入檢測可抓取的矩形（基于平面）

->基于6D位姿估計，并将預先定義的抓握姿勢投射到場景中（需要預先知道抓取物體的形狀）

->在部分觀察到的點雲上抓取候選對象，并使用3D CNN輸出每個候選對象的分類分數。

2.抓取資料集

-> 矩形标注（人工标注）的抓取資料集（cornell）

-> 用機器人執行抓取，獲得抓取資料集（google那篇工作）

-> 仿真标注（dex-net），但是問題是傳感器差距會導緻問題

-> 像素級标注affordance（GraspSeg）

3.基于點雲的深度學習

-> 原始點雲學習（PointNet）

-> 分割分類（Point系列）

->抓取位置預測（S4G）

.2 Dataset

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

該資料集包含88個具有高品質3D網格模型的日常對象。這些圖像是從190個雜亂的場景中收集的，每個場景都貢獻了兩個不同攝像頭拍攝的512張RGB-D圖像，總共帶來了97,280張圖像。

對于每幅圖像，通過力閉合的解析計算來密集地标注6-DOF抓取姿勢[29]。每個場景的抓握姿勢從300萬到900萬不等，我們的資料集總共包含超過11億個抓握姿勢。

此外，還提供了精确的對象6D姿勢标注、基于矩形的抓取姿勢、對象蒙版和包圍盒。每一幀還與一個相機姿勢相關聯，是以可以很容易地融合多個視點雲。

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

2.1 data collection：

場景設定：對于每個場景，我們從整個對象集中随機挑選大約10個對象，并以雜亂的方式放置它們。

标定方式：相機在機械臂上。

2.2 data annotation

6D Pose Annotation：

每個場景的第一幀注釋6D姿勢。6d姿态将傳播到剩餘幀。

grasp pose annotation：

力閉合

2.3 evaluation

資料集拆分：共190個場景，100個用于訓練集，90個用于測試集。測試集中30個用于見過的物體，30個用于沒見過但相似的物體，30個用于新物體。

對于每個預測的抓取姿勢ˆPI，我們通過檢查抓取器内部的點雲将其與目标對象相關聯。然後，類似于抓取标注的生成過程，在給定不同的µ的情況下，我們可以通過力閉合度量得到每個抓取姿勢的二進制标簽。

.3 backbone

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

end2end網絡架構;

點雲輸入然後編碼提取M個點然後解碼輸出這M個點

采用PointNet++，N×3大小的原始點雲作為輸入，輸出一組新的具有C個特征的點（3+c）

輸入M個（3+c）通過Approachnet，輸出M個(2+v),2表示是否可掌握的二進制類，V表示預定義接近向量的數量。

組合M個（3+c）和M個（2+v）--生成圓柱形的抓取區域，每個區域裡ni個抓取點（ni*（3+c））

把ni*（3+c）[圓柱區域]輸入Operation Network和Tolerance Network

Operation Network 把ni*（3+c）分成K個區域每個區域有R個抓取位姿輸出 K個R*3

Tolerance Network 篩選出好的抓取位姿輸出每個K最好的R

最後結合 Operation Network和Tolerance Network的輸出進行過濾，輸出K個Grasps

Loss Function 候選點可以被抓取條件：

1.點是否在物體上

2.在半徑5mm的範圍内至少具有一個可抓取ground-truth

3.1 Training and Inference

通過根據抓取分數将抓取姿勢劃分為10個類來優化抓取姿勢

最後inference的時候，輸入點輸出可抓取位姿

3.2 Experiment

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

References：

論文閱讀|GraspNet-1Billion - 知乎

GraspNet-1Billion.1 intro.2 Dataset.3 backbone References：

.1 intro

.2 Dataset

2.1 data collection：

2.2 data annotation

2.3 evaluation

.3 backbone

3.1 Training and Inference

3.2 Experiment

References：

繼續閱讀

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普