天天看點

論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

作者:BFT白芙堂機器人
原創 | 文BFT機器人
論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

01

摘要

論文提出了表述了一個新的基于點雲的3D檢測方法,名為VoxelNet,該方法是一個端到端可訓練的深度學習架構,利用了稀疏點雲的結構特性,直接在稀疏的3D點上進行操作,并通過高效的并行處理體素網格來獲得性能的提升。

此方法在KITTI基準資料集上進行了實驗,并展示了VoxelNet在基于雷射雷達的汽車、行人和騎自行車者檢測任務中取得了最先進的結果。實驗表明,VoxelNet在很大程度上優于最先進的基于LiDAR的3D檢測方法。

論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

02

VoxelNet架構

如圖二所示,這是一個通用的3D檢測架構,可以同時從點雲中學習判别特征表示,并以端到端方式預測準确的3D邊界框。

論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

圖二所示,它主要包含三個子產品;

1.特征學習網絡Feature Learning Network

1.1提素分區Voxel Partition

如圖2 所⽰。假設點雲包含沿 Z、Y、X 軸分别具有範圍D、 H 、 W的 3D 空間。我們相應地定義了⼤⼩為vD、 vH和vW的每個體素。⽣成的 3D 體素⽹格的⼤⼩為D′ = D/vD、 H′ = H/vH、 W′ = W/vW 。這⾥,為了簡單起⻅,我們假設D、 H、 W是vD、 vH、 vW的倍數。

1.2分組 Grouping

點雲是稀疏的,并且在整個空間中具有高度可變的點密度。是以,在分組之後,一個體素将包含可變數量的點。如圖2所示,其中voxel -1比Voxel-2和Voxel-4有更多的點,而Voxel-3沒有點。

1.3随機抽樣 Random Sampling

為了節省計算量,減少了體素之間點的不平衡,減少了采樣偏差,為訓練增加了更多的變化,從包含超過T個點的體素中随機抽取固定數量的T個點。

1.4堆疊體素特征編碼 Stacked Voxel Feature Encoding

圖三為VFE Layer-1的體系結構

論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

1.5稀疏張量表示 Sparse Tensor Representation

通過處理非空體素,獲得了一個體素特征清單,每個體素特征都與特定非空體素的空間坐标唯一相關。得到的體素特征清單可以表示為一個稀疏的4D張量,大小為C×D '×H '×W '。将非空體素特征表示為稀疏張量,大大降低了反向傳播過程中的記憶體使用和計算成本,是高效實作的關鍵步驟。

2.卷積中間層Convolutional middle layers

使用ConvMD(cin, cout, k, s, p)來表示一個m維卷積算子,其中cin和cout是輸入和輸出通道的數量,k, s和p是分别對應核心大小,步幅大小和填充大小的m維向量。

3. 區域提議網絡Region proposal network

RPN作為高性能目标檢測架構的重要組成部分。在這項工作中,作者對RPN架構進行了關鍵修改,并将其與特征學習網絡和卷積中間層相結合,形成了一個端到端可訓練的管道。

RPN的輸入是由卷積中間層提供的特征映射。網絡的體系結構包括三個完全卷積層塊。每個塊的第一層通過步長為2的卷積對特征圖進行下采樣,接着是一系列步長為1的卷積操作。在每個卷積層後,應用批量歸一化(BN)和ReLU操作。然後,将每個塊的輸出上采樣到固定大小,并拼接以建構高分辨率特征圖。最後,将該特征映射映射到學習目标,包括機率分數映射和回歸映射。

論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

03

損失函數Loss Function

分為兩個部分,一個是分類,一個是回歸。分類用的是binary cross entropy, 回歸用的是smooth-L1 loss。

論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習
論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

04

資料增強

在點雲目标檢測中,如果從頭開始訓練網絡的訓練資料少于4000個點雲,則會面臨過拟合的問題。為了減少這個問題,作者引入了三種不同形式的資料增強,這些增強是即時生成的,無需存儲在磁盤上。

第一種形式的資料增強是對每個真實邊界框和邊界框内的點雲應用攝動。攝動包括圍繞z軸的旋轉和XYZ方向的平移。為了避免不可能的結果,進行了碰撞測試來確定邊界框之間沒有碰撞。第二種增強是對所有真實邊界框和整個點雲應用全局縮放,以提高網絡對不同大小和距離物體的檢測魯棒性。最後,對所有真實邊界框和整個點雲進行全局旋轉,模拟車輛轉彎。

這種方式方法使網絡能夠從更多的資料變化中學習,提高點雲目标檢測的性能和魯棒性。

05

實驗結果

論文解讀|VoxelNet:基于點雲的3D物體檢測的端到端學習

06

結論

VoxelNet在KITTI汽車檢測任務上的表現明顯優于現有基于雷射雷達的3D檢測方法。在更具挑戰性的行人和騎自行車者的3D檢測任務中,VoxelNet也展示出令人鼓舞的結果,證明其提供了更好的三維表示能力。

作者未來的工作包括擴充VoxelNet,用于聯合雷射雷達和基于圖像的端到端3D檢測,以進一步提高檢測和定位精度。

論文标題:

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

網址:

https://arxiv.org/pdf/1711.06396.pdf%20em%2017/12/2017.pdf

代碼參考:

https://github.com/ModelBunker/VoxelNet-PyTorch

更多精彩内容請關注公衆号:BFT機器人

(公衆号背景回複“優惠活動”檢視BFT機器人年終钜惠福利内容)

本文為原創文章,版權歸BFT機器人所有,如需轉載請與我們聯系。若您對該文章内容有任何疑問,請與我們聯系,将及時回應。

繼續閱讀