天天看點

多傳感器融合:MVP和PointPainting

多傳感器融合相關的理論真的可以非常複雜,而在感覺方面,由于可以和深度學習做結合,是以很多工作可以變得簡單有效,有時候一個簡單的特征融合都會有很好的效果。

本文結合 3D 物體檢測,為大家帶來兩篇工作,一篇是 PointPainting,一篇是Multimodal Virtual Point 3D Detection (後稱MVP).

PointPainting

這篇文章并不算久遠,但是很适合作為多傳感器的入門讀物。在當時 3D 物體檢測還是以 Lidar-Only 的方式為主,因為融合的算法并不能展現明顯的優勢,但是很顯然,Lidar 的資訊有限、檢測精度有限。如下圖可以看到,在25m遠的地方,人和杆子僅根據點雲已經很難區分了,但是圖像上卻很容易區分。

多傳感器融合:MVP和PointPainting

針對Lidar資訊有限的問題,解決思路有兩個,一個是挖掘更多的資訊,但是這條路很難走;另一個思路就是加資訊,那麼怎麼加資訊就是我們要關注的點了。

PointPainting的解決思路是為每個點賦上一個語義,這個語義從圖像中可以擷取,結合論文的流程圖加以了解:

多傳感器融合:MVP和PointPainting

在有了帶語義的點雲之後,再輸入到一個現有的點雲檢測網絡當中即可。這是 CVPR 2020 的工作。

多傳感器融合:MVP和PointPainting

工作雖然很簡單,但是效果提升很明顯。不過我們還是需要有一些思考,雖然這樣的方式可以提升性能,但是圖像分割不是絕對準确的,如果賦錯了怎麼辦?而且點雲依舊是稀疏的,是不是可以像PseudoLidar這類單目3D物體檢測的方法,去補一些點呢?我們來看一看 MVP 是怎麼思考這些問題的。

MVP

我們首先看一下 3D 物體檢測常見的failure case (圖像來自MVP github):

多傳感器融合:MVP和PointPainting

在遠處的物體往往會出現誤檢、漏檢以及檢測不準确的問題。這是由于雷達過于稀疏:

多傳感器融合:MVP和PointPainting

那麼按照 PointPainting 的做法我們會為這些稀疏的點賦上語義,如下圖:

多傳感器融合:MVP和PointPainting

但是稀疏的問題仍然存在,是以MVP提出的觀點是,應當補充适當的點,使得遠處的點稠密,又不至于整理計算開銷太大:

多傳感器融合:MVP和PointPainting

方法也很簡單,其實深度估計都不需要,我們根據圖像得到的 Mask,可以先計算一些 Mask 内有多少 Lidar 點,如果滿足一定門檻值,比如20個點,我們就不做額外操作,如果不滿足,我們就在mask内随機選若幹個像素,深度依據最近鄰原則補上,然後再投影到3D空間,這樣做不僅不會增加很大的開銷,而且可以大幅提升性能:

多傳感器融合:MVP和PointPainting

可以看到 MVP 的 performance 是遠超 PointPainting 的。

我們在選取一幀補充後的點雲做可視化:

多傳感器融合:MVP和PointPainting

總結

是以有些時候思想往往更重要,比如 MAE 其實也十分易懂,但是效果卻很驚豔,簡潔到不知道怎麼修改,當然這是開玩笑了。這兩篇工作都是非常簡單,但是實驗都做得非常充分,MVP 還結合了最新的 MaskFormer 做了一些實驗。這也給了我們很大啟發,有時候分析清楚問題往往比設計一個複雜又不通用的算法要有意義多。

ABOUT

關于我們

深藍學院是專注于人工智能的線上教育平台,已有數萬名夥伴在深藍學院平台學習,很多都來自于國内外知名院校,比如清華、北大等。

繼續閱讀