前言
在此之前看過的點雲論文都是看一篇是一篇,未嘗寫過部落格記錄下學習心得,時間久了自己都記不得内容了,前段時間看到舍弟寫的部落格,遂覺自己也有必要将所看論文寫成部落格記錄所獲心得。本篇部落格是将英文論文翻譯成中文。以下為全文漢譯。
未完待續,更新中……
semantic3d網絡:一種新的大規模點雲分類基準
Timo Hackela, Nikolay Savinovb, Lubor Ladickyb, Jan D. Wegnera, Konrad Schindlera, Marc Pollefeysb
a IGP, ETH Zurich, Switzerland - (timo.hackel, jan.wegner, konrad.schindler)@geod.baug.ethz.ch
b CVG, ETH Zurich, Switzerland - (nikolay.savinov, lubor.ladicky, marc.pollefeys)@inf.ethz.ch
摘要
本文提出了一種新的三維點雲分類基準資料集,該資料集包含40多億個人工标注的點,可作為資料饑渴(深度)學習方法的輸入。我們也仔細認真的讨論了第一次送出的用于深層卷積神經網絡的基準,這些基準相比于最先進的成果,已經展現出了卓越的性能提升。卷積神經網絡已經成為計算機視覺和機器學習許多任務的實際标準,比如圖像中的語義分割或目标檢測,但由于缺乏訓練資料,三維點雲标記任務尚未取得真正突破。用本文提供的大量資料集,我們旨在縮小這個資料缺口,以幫助釋放深度學習方法在三維标記任務上的全部潛力,我們的三維語義網絡資料集由地面雷射掃描器擷取的稠密點雲組成,它包含8個語義類并且涵蓋了廣泛的城市戶外場景:教堂、街道、鐵路軌道、廣場、村莊、足球場和城堡。我們描述了我們的标簽接口,并且展示了我們的資料提供了更加稠密和完整的點雲,而且相比于在研究社群已經擷取到的資料,我們的資料标記點的總體數量要更高。我們進一步提供基線方法的說明和其與送出到我們線上系統的方法之間的比較。我們希望三維語義網絡能夠鋪平深度學習方法在三維點雲标注方面的道路,進而學習更豐富、更通用的三維表現形式,而僅僅幾個月後的第一次送出就表明情況可能确實如此。
1.緒論
自(Krizhevsky et al., 2012)的開創性論文以來,深度學習已經取得驚人的再次流行,該論文再現了(福島,1980年,LeCun et al., 1989年)的早期工作。特别是深度卷積神經網絡(CNN)已經迅速成為一系列基于學習的圖像分析任務的核心技術。在計算機視覺和機器學習方面絕大多數的先進方法都将CNNs作為它們的重要組成部分之一。它們在圖像解譯任務中的成功主要歸功于(i)易于并行的網絡架構,這種網絡架構便于在單GPU上訓練數百萬張的圖像。(ii)可以擷取大型公共基準資料集,比如關于rgb圖像的ImageNet(Deng等人,2009年,Russakovsky等人,2015年)和Pascal VOC(Everingham等人,2010年)資料集,或者針對rgb-d資料的SUN rgb-d(Song等人,2015)資料集。
雖然CNNs在圖像解譯方面有一個偉大的成功史,但在三維點雲解譯方面就不那麼成功了。對于三維點雲來說,使得點雲的監督學習變得困難的原因是每個資料集擁有數百萬個點的規模,并且這些點是不規則,非網格對齊的,在一些具有非常稀疏結構的位置處,還伴随着強烈的點密度變化(如圖1)。
圖1:基準資料集的示例點雲,其中顔色表示類标簽。
雖然現在的記錄是直接的,但是主要的瓶頸是生成足夠多的人工标注訓練資料,這是當代機器學習(深度學習)學習好的模型所必需的,它可以很好地推廣到新的、未見過的場景。由于額外的次元,在三維空間中的分類器參數規模要比在二維空間中的規模更大,并且特殊的三維效果,比如遮擋或點密度的變化,導緻完全相同的輸出類别有許多不同的形态。這使得訓練好的通用分類器分類效果變差,并且在三維空間中我們通常需要比二維空間更多的訓練資料。相比于圖像,即使是未經訓練過的使用者也能很容易的對圖像進行注解,而三維點雲則更難去解譯。浏覽三維點雲更加的耗時,而且劇烈的點密度變化加重了對場景的解譯。
為了加速點雲處理的強大算法的開發,我們提供了(我們所知道的)所收集的迄今規模最大的地面雷射掃描資料,該資料附有單點級地面真實語義的标注。總計有超過4×109個點和8個類的類标簽。資料集被分成大小大緻相同的訓練集和測試集。掃描是有挑戰性的,不僅是因為它們每條掃描線上高達約4×108個點,而且還因為它們的高測量分辨率和長測量範圍,導緻極端的密度變化和大面積的遮擋。為了友善使用基準測試,我們不僅提供免費可用的資料,還提供一個自動的線上送出系統以及公開送出方法的結果。該基準還包括基準線,一個遵循基于特征值的多尺度特征提取标準範式,然後使用随機森林進行分類,另一個遵循基本的深度學習方法。此外,第一次送出的基準,我們也簡要讨論。
2.相關工作
基準工作在地理空間資料社群,特别是在ISPR中有着悠久的傳統。最近的工作包括,例如,ISPRS-EuroSDR高密度航空圖像比對3基準,旨在評估傾斜航空圖像的密集比對方法(Haala,2013Cavegn等人,2014),以及ISPRS城市目标檢測和重建基準測試,其中包含了一些不同的挑戰,如航空圖像的語義分割和三維物體重建(Rottensteiner等人,2013)。
在計算機視覺中,包含數百萬張圖像的非常大規模的基準資料集已經成為基于學習的圖像解譯任務的标準。已經引入了各種資料集,其中許多是為特定任務量身定制的,有些是連續幾年作為年度挑戰的基礎資料集(例如ImageNet、Pascal VOC)。旨在促進研究圖像分類和目标檢測的資料集在很大程度上依賴于從網際網路上下載下傳的圖像。基于網絡的圖像一直是基準發展的的主要驅動力,因為不需要為資料集的生成完成昂貴的、專門的攝影活動。雖然這使得可以把基準圖像從數百張擴充到數百萬張,但是通常給這些圖像的注釋都很弱,必須考慮大量的标簽噪聲。此外,人們可以假設,網際網路圖像構成了一個非常普遍的圖像集合,對特定傳感器、場景、國家、目标等的偏袒較小,這使得能夠訓練出更豐富的,泛化更好的模型。
最早成功的大規模圖像目标檢測嘗試之一是超過8000萬張小圖像(32×32像素)的tinyimages(Torralba等人,2008年)。圖像語義分割的一個裡程碑和仍然廣泛使用的資料集是著名的Pascal VOC(Everingham et al.,2010)資料集和挑戰,它被用于訓練和測試當今許多著名的、最先進的算法,如(Long et al.,2015,Badrinarayanan et al.,2015)。另一個比較新的資料集是MSCOCO4,它包含3萬個帶有注釋的圖像,這些注釋顧及到了上下文圖像分割,目辨別别和給圖像添加說明文字。當今計算機視覺中最流行的基準之一是ImageNet資料集(Deng等人,2009年,Russakovsky等人,2015年),它使卷積神經網絡在計算機視覺中開始流行起來(Krizhevsky等人,2012年)。它包含根據詞彙網絡層次結構組織的超過14×106張圖像,其中單詞被按照認知同義詞分組。
微軟Kinect推出了流行的低成本遊戲裝置,由此産生了幾個大型rgb-d圖像資料庫。流行的例子是紐約大學深度資料集V2(Silberman等人,2012年)或SUN RGB-D(Song等人,2015年),它們為對象分割和場景了解提供标記的RGB-D圖像。與雷射掃描器相比,低成本的結構光rgb-d傳感器具有更短的測量範圍、更低的分辨率,并且由于太陽光的紅外光對投影的傳感器模式的幹擾,是以rgb-d傳感器在室外工作狀态很差。
據我們所知,至今不存在公開可用,且同前文所述視覺基準規模大小的雷射掃描資料集。是以,許多最近為體素網格所設計的卷積神經網絡(Brock et al.,2017,Wu et al.,2015)使用了從CAD模型人工生成的資料——ModelNet(Wu et al.,2015),它是一個相當小的人造資料集。是以,最近的內建方法(例如(Brock等人,2017))在ModelNet10上達到97%以上的性能,這清楚地表明由于資料有限,模型過拟合了。
這些現有的少量雷射掃描資料集主要是通過移動道路測量裝置或機器人(如DUT1(Zhuang等人,2014)、DUT2(Zhuang等人,2015)或KAIST(Choe等人,2013)獲得的,這些資料集較小(<107點),并且不可公開擷取。公開可擷取的雷射掃描資料集包括奧克蘭資料集(Munoz等人,2009年)(小于2×106點)、悉尼城市物體資料集(Deuge等人,2013年)、巴黎街夫人資料庫(Serna等人,2014年)和來自IQmulus&TerraMobilita競賽的資料(Vallet等人,2015年)。它們都有一個共同點,那就是使用移動道路測量車擷取的三維雷射雷達資料,這種車提供的點密度比我們這種典型的靜态掃描要低得多。它們的資料量也相對較小,以緻于監督學習算法很容易過拟合。目前大多數可用的點雲資料集都沒有經過一個全面、透明的評估,該評估可在網際網路上公開、不斷更新,并列出所有送出的基準。
使用本文中提出的semantic3D.net基準,我們旨在縮小這一差距。它提供了最大的有标簽的三維點雲資料集,大約有40億個人工标記的點,且附有噪聲評價,并不斷更新送出的内容。這是第一個全面支援在真正的三維雷射掃描資料上進行深度學習的資料集,它裡面每個點都具有有高品質的人工配置設定的标簽。
3.目标
給定一組點(這裡:來自于靜态地面雷射掃描器的密集掃描),我們希望為每個點推斷出一個單獨的類标簽。我們提供了三種基線方法,用于代表最近用于該任務的典型分類方法。
i)二維圖像基線:
許多最先進的雷射掃描器也可以為掃描的場景擷取顔色值甚至整個彩色圖像。彩色圖像可以添加可能有助于分類的其他實物證據。首先,樸素基線隻對二維彩色圖像進行分類,而不使用任何深度資訊,進而建立了一個連結到大量關于二維語義圖像分割的文獻。現代的方法使用深卷積神經網絡作為工作的基礎。像SegNet(Badrinarayanan等人,2015)這樣的編碼-解碼器架構能夠一次推斷出整個圖像的标簽。深層結構也可以與條件随機場(CRF)結合(Chen等人,2016)。我們在第3.1節中的基線方法涵蓋了基于圖像的語義分割。
ii)三維協方差基線
一種利用三維資訊的更加具體的方法是直接處理點雲。我們使用最新實作的标準分類管道,即從3D(多尺度)鄰域中提取手工制作的特征,并将其輸入到判别學習算法中。典型特征基于點鄰域的協方差張量(Demantke等,2011)或随機直方圖集(Blomley等,2014)來編碼表面特性。另外,高度分布可以通過使用圓柱鄰域進行編碼(Monnier等人,2012年,Weinmann等人,2013年)。第二種基線方法(第3.2節)代表這一類别。
iii)三維卷積神經網絡(CNN)基線
将深度學習應用于三維點雲是一個相當明顯的擴充,它主要使用體素網格來獲得規則的鄰域結構。為了有效地處理密度變化很大點雲中的大規模點鄰域,最近的研究使用了自适應鄰域資料結構,如八叉樹(Wu et al.,2015,Brock et al.,2017,Riegler et al.,2017)或稀疏體素網格(Engelcke et al.,2017)。在第3.3節中,我們第三種基線方法是一個直接實作的基本的三維體素網格卷積神經網絡。
圖2:第一行:帶有标簽的地面實況投影成圖像。第二行:使用圖像基線進行分類的結果。白色:未标記像素,黑色:沒有相應三維點的像素,灰色:建築物,橙色:人造地面,綠色:天然地面,黃色:低植被,藍色:高植被,紫色:硬景觀,粉色:汽車
3.1二維圖像基線
我們使用三次幂将掃描線的顔色值轉換為單獨的圖像(沒有深度)。Ground truth标簽也從點雲投影到圖像空間,使得三維點标記任務變成二維RGB圖像的純語義圖像分割問題(圖2)。我們選擇關聯層次字段方法(Ladicky等人,2013年)進行語義分割,因為它已經證明能夠為各種任務(例如(Montoya等人,2014年,Ladicky等人,2014年)提供良好的性能,并且在它的最初實作中是有效的。
該方法的工作原理如下:對四種不同類型的特征texton(Malik et al.,2001)、SIFT(Lowe,2004)、局部量化三值模式(Hussain and Triggs,2012)和自相似性特征(Shechtman and Irani,2007)進行了密集的逐像素提取。使用标準K-均值聚類,每個特征類别分别聚類成512個不同的模型,該模型與典型的詞袋表示相對應。對于一幅圖像中的每一個像素,特征向量是在200個不同大小的固定矩形集合上的詞袋直方圖的串聯。這些矩形随機放置在像素周圍的擴充鄰域中。我們使用多類boosting(Torralba et al.,2004)作為分類器,發現最具鑒别能力的弱特征,如(Shotton et al.,2006)論文所述。為了在不丢失銳利對象邊界的情況下添加局部平滑,我們在超像素内部進行平滑,并在其邊界處支援類轉換。按照(Ladicky等人,2013)論文的描述,采用三組由粗到精的參數集合,經過均值偏移(Comaniciu和Meer,2002)提取超像素。利用每個像素的詞袋的表現形式所組成的特征向量預測重疊超像素可能的類。如(Kohli等人,2008年)這篇文章提出預先在像素和超像素上面進行平滑,再基于像素和超像素的進行分類的分類器,是以機率的方式在一個條件随機場架構下結合在一起的。關聯使用基于移動生成(Boykov等人,2001)圖割的算法(Boykov和Kolmogorov,2004)和高階勢的适當圖構造(Ladicky等人,2013),找到關聯層次優化問題的最可能解。
3.2三維協方差基線
第二個基線的靈感來自(Weinmann等人,2015年)的論文。它利用多尺度特征和判别學習,直接從三維點雲中提取類标簽。同樣,我們可以通路原始實作。該方法使用多尺度鄰域的有效近似,即點雲被亞采樣到多分辨率金字塔中,使得每一層都有恒定的少量鄰域捕獲多尺度資訊。多尺度金字塔是通過采用等間距體素網格濾波方法生成的。
在每一層提取的特征集是Weinmann等人(2013)描述的集合的擴充。它使用每個點鄰域協方差的特征值和特征向量的不同組合來獲得不同的幾何曲面特性。此外,添加了基于豎直圓柱鄰域的高度特征,以強調重力方向的特殊作用(假設掃描線向往常一樣與垂直方向對齊)。請注意,我們不使用顔色值或掃描器的強度。這些在點雲中并不總是可用的,根據經驗我們發現,它們并不能改善方法的結果。作為分類器,我們使用一個随機森林,通過網格搜尋和五層交叉檢驗找到最優參數。詳情請參閱(Hackel等人,2016年)。
3.3三維卷積神經網絡(CNN)基線
我們根據最近的VoxNet(Maturana and Scherer,2015)和ShapeNet(Wu etal.,2015)的3D編碼思想設計了點雲分類任務的基線。管道插圖如圖3中所示。
圖3 我們的深度神經網絡管道
在處理之前我們不生成全局三維體素網格,而是在每個掃描點建立16×16×16的立方體體素。我們在5種不同的分辨率下進行這項工作,其中體素大小從2.5厘米到40厘米(乘以2的幂),并将空體素細胞編碼為0,非空體素細胞編碼為1。是以,CNN的輸入被編碼為多元張量,每個掃描點有5×16×16×16個立方體條目。
這五個尺度中的每一個尺度分别由一個類似VGG的網絡路徑處理,該路徑包括卷積層、池化層和ReLU層。通過兩個全連接配接層,這5個網絡路徑被最終連接配接成一個表達形式。第二個全連接配接層的輸出是一個8維向量,它包含了這個基準測試中8個類的每個類的得分。使用soft-max函數,将類的得分轉換為類的條件機率。
在較長的描述網絡結構之前,我們先介紹以下符号:
c(i,o)表示具有3×3×3濾波器的卷積層、i輸入通道、o輸出通道、每個邊界處以步長為1進行補零。f(i,o)表示全連接配接層。r表示一個非線性的ReLU,m代表感受野為2×2×2,每維步長為2的最大容積池。d代表0.5機率的退出,s代表軟soft-max層。
我們的三維CNN架構将這些元件組合成類VGG的網絡結構。如最近的工作(He et al.,2016)中所建議的,我們選擇卷積層中的濾波器尺寸盡可能小(3×3×3),以使每層的參數數量最少,進而降低過度拟合的風險和計算成本。
對于這5個獨立的不同分辨率的網絡路徑,我們使用類VGG(Simonyan和Zisserman,2014)網絡結構:
(c(1; 16); r; m; c(16; 32); r; m; c(32; 64); r; m).
在尺度之間的輸出結果是串聯起來的向量,并且在頂部用兩個全連接配接層來預測類的響應:
(f(2560; 2048); r; d; f(2048; 8); s):
我們使用标準的多類交叉熵損失函數用于訓練。深度學習是非凸的,但它可以通過随機梯度下降(SGD)進行有效的優化,進而産生具有最先進預測性能的分類器。SGD算法使用從每批次處理的幾百個點中,随機抽樣出一小部分來疊代更新CNN的參數。我們使用流行的adadelta算法(Zeiler,2012)進行優化,這是随機梯度下降的擴充(Bottou,2010)。
我們使用一個100個訓練樣本(即,點)的小批,其中每一批樣本都是随機和均衡的(每個類包含相同數量的樣本)。我們對74700個批次進行了訓練,并從一個具有代表性的2.59億點的大點雲(sg28_4)中抽樣出了訓練資料。卷積神經網絡的一個标準預處理步驟是資料增廣(augmentation),以擴大訓練資料集和防止過拟合。在此,每經過100個批次後,我們用圍繞z軸的随機旋轉來擴充訓練集。在實驗中的結果證明,額外的訓練資料并沒有提高性能。這表明在我們的案例,我們更傾向于處理欠拟合(而不是過拟合),例如,我們的模型缺乏在現有訓練資料中充分捕獲所有證據的能力。是以,我們避免進一步可能的增廣,如随機丢失點或添加噪聲。我們的網絡是用C++和Lua實作的,并且使用Torch7架構(CalbBER等,2011)進行深度學習。此基線的代碼和文檔的公開擷取位址為https://github.com/nsavinov/semantic3dnet。
4資料
我們公布的30個地面雷射掃描共包含約40億個3維點,包含城市和鄉村場景,如農場、市政廳、運動場、城堡和市集廣場。為了防止分類器的過拟合,我們特意選擇了各種不同的自然場景和人造場景。所有公布的場景都是在中歐拍攝的,并描述了典型的歐洲建築,如圖4所示。測量級雷射掃描器用于記錄這些場景。在後處理步驟中,通過部署一個高分辨率立方體貼圖(由相機圖像生成)來執行着色。一般來說,靜态雷射掃描具有非常高的分辨率,能夠在低噪聲的狀态下測量長距離。特别是與從運動結構管道或類似Kinect的結構光傳感器獲得的點雲相比,雷射掃描器實作了更高的資料品質。
圖4 示例資料集,強度值(左)、rgb顔色(中)和類标簽(右)。
記錄資料的掃描器位置選擇與通常在現場所做的一樣:對于配準隻需要有很少的掃描重疊度,以便在最短的時間内記錄場景。這種掃描位置的自由選擇意味着沒有基于點密度和類分布的先驗假設。每個場景我們公布了有小重疊的3個雷射掃描。利用目标估計同一位置雷射掃描的相對位置。
在這個基準挑戰中,我們使用了以下8個類,涵蓋:
(1)人造地形:主要是人行道;
(2)自然地形:大部分為草;
(3)高植被:樹木和大灌木叢;
(4)低植被:花或小于2米的小灌木叢;
(5)建築物:教堂、市政廳、車站、較高價的電梯大廈等;
(6)剩餘硬景觀:如花園牆壁、人工噴泉、河岸等的混合類;
(7)掃描僞影:在靜态掃描的記錄過程中,動态移動的對象産生的僞影;
(8)汽車和卡車。
這些類中的一些是不明确的,例如一些掃描僞影也可能用于汽車或卡車,以及很難區分大小灌木叢。然而,這些類在很多應用中是很有用的。請注意,在大多數應用中,類7掃描僞影用啟發式規則集過濾。在這個基準中,我們希望部署機器學習技術,是以不執行任何啟發式預處理。在我們看來,大資料集之是以重要有兩個原因:a)通常,現實世界中的掃描資料集很大。是以,對實際問題有影響的方法必須能夠處理大量的資料。b) 在使用能夠表示學習的現代推理技術開發方法時,大型資料集尤其重要。由于資料集太小,好的結果會給人留下過拟合的疑慮。另一方面,不令人滿意的結果,很難被解釋為進一步研究的指導方針:這些錯誤是由于方法的缺陷,還是僅僅是由于缺乏足夠的訓練資料導緻的?
4.1點雲标注
通常為3維資料貼标簽的政策為:首先計算一個過分割,其次是分段标記。與其不同的是我們分别為每一個點配置設定一個類标記。盡管這種政策更為勞動密集,但它能夠避免繼承來自于分割方法中的錯誤,更重要的是,在使用資料進行訓練時,分類器不會學習分割算法中的人為制造的規則。一般來說,手工标記點雲比圖像更困難。主要問題是,在2維顯示器上從數百萬個沒有清晰鄰域/曲面結構的3維點的集合中,選擇一個3維點着實困難。我們測試了兩種不同的政策:
3維注釋:我們采用疊代過濾政策,在這裡我們手動選擇幾個點,為這些資料拟合一個簡單的模型,删除模型的異常值,然後重複這些步驟,直到内部所有的點都屬于同一個類為止。通過這個步驟,可以在幾秒鐘内選擇多所大型建築物,蘇黎世理工學院的學生助理用這種方法标記了一小部分點雲。
2維注釋:使用者旋轉點雲,固定2維視圖并繪制一個閉合多邊形,該閉合多邊形将點雲分割為兩部分(多邊形的内部和外部)。常常包含一部分需要被舍棄的背景的點。這個過程重複幾次,直到所有剩餘的點都屬于同一個類。最後,所有點都被分成對應于感興趣類的不同的層。這個2維程式與現有軟體包(Daniel GirardeauMontaut,CloudCompare,2016)很好地協同工作,是以它可以比3維工作流程更容易地外包給外部貼标簽的人。我們對所有外包注釋的資料集使用此過程。
表1:全資料集上的Semantic3d基準結果:3維協方差基線TMLC-MS、2維RGB圖像基線TML-PC和首次送出的HarrisNet和DeepSegNet分類的IoU:(1)人造地形,(2)自然地形,(3)高植被,(4)低植被,(5)建築物,(6)硬景觀,(7)掃描僞影,(8)汽車。*由于掃描僞影不存在于圖像資料中,是以在二維分類中被忽略。
表2:簡化資料集上的Semantic3d基準結果:3維協方差基線TMLC-MSR、2維RGB圖像基線TML-PCR和我們的3維 CNN基線DeepNet。TMLC-MS R與TMLC-MS是相同的方法,TMLC-PCR和TMLC-PC也是如此。在這兩種情況下,R都表示精簡資料集上的分類器。分類IoU:(1)人造地形,(2)自然地形,(3)高植被,(4)低植被,(5)建築物,(6)硬景觀,(7)掃描僞影,(8)汽車。*由于掃描僞影不存在于圖像資料中,是以在二維分類中被忽略。
5評價
我們遵循Pascal VOC challenge (Everingham et al., 2010)對主要的分割評估方法的選擇,并在所有類上使用 IoU的平均值。 假設類用{1,…,N}中的整數編号,其中N為類的總數。設C是所選擇的分類方法的N×N混淆矩陣,其中每個條目C i j是将标注為i類預測為j類的數目。那麼每一個i類的評估方法定義為:
是以,我們的基準的主要評估方法是
我們還報告了每一個i類的IoUi和總體精度。
作為輔助方法并提供混淆矩陣C。最後,要求每個參與者指定對測試集進行分類所需的時間T以及用于實驗的硬體。此度量對于了解該方法在實際場景中的适用性非常重要,在實際場景中通常需要處理數十億個點。
對于需要計算的方法,我們用一個由公布的測試資料的子集來減小計算量的挑戰。對于全部的挑戰,我們的基線方法和送出的結如表1所示,減小的挑戰如表2所示。在三種已公布的基線方法中,基于協方差的方法優于CNN基線和基于顔色的方法。由于其計算成本,我們隻能在減少的資料集上運作自己的深度學習基線DeepNet。我們期望一個容量更大的網絡能表現得更好。兩種3D CNN方法DeepSegNet和HarrisNet的全部挑戰結果(遺憾的是,尚未發表)已經以各自12%的顯著優勢(表1)超過我們的協方差基線。這表明,如果有足夠的資料可用于訓練,深度學習似乎也适用于點雲。這是我們的基準已經開始工作并産生進展的第一個迹象。
6基準統計
測試和訓練集中的類分布非常相似,如圖5a所示。有趣的是,大多數樣本的類都是人造地形,因為為了友善起見,野外的操作人員,傾向于将掃描器放置在鋪設平坦的地面上。還記得點密度随着點到掃描器的距離的二次方遞減,這樣許多樣本都距離掃描器比較近。訓練樣本與測試樣本最大的差異出現在類建築上(class building)。然而,迄今為止,這似乎沒有影響到送出檔案的執行情況。最困難的類,掃描僞影和汽車僅僅有少量訓練和測試的樣本,并且可能有多種多樣的目标形狀。掃描僞影可能是最難的一類,因為僞影的形狀主要取決于掃描過程中物體的運動。請注意,經過與專家們的讨論,應景觀類被設計為混合類,它包含了除房屋、汽車、路面之外的各種各樣的人造物體。
圖5:0(a)所有掃描中每個類的點數。(b)相鄰掃描重疊部分中估計的錯誤真标簽。
為了直覺的了解人工擷取标簽的品質,我們還檢查了人類标注者之間的标簽一緻性。這提供了一種訓示性的度量有多少标注者在資料标簽方面一緻的方法,并且可以看做是對手動标注精度的内部檢查。我們粗略估計了在同一場景的不同掃描重疊的區域中,不同人類标注者的标簽一緻性。因為我們不能完全排除某些重疊區域,可能是由同一個人标記的(貼标簽是外包的,是以我們不确切知道是誰标注了什麼),是以這隻能被視為一種訓示性度量。回想一下,可以通過場景中的人工标記準确地建立相鄰掃描的重疊。即使掃描校準是完美無誤的,在兩個掃描之間也不存在點與點的對應,因為從兩個不同位置擷取的掃描點不會恰好落在同一個點上。是以,我們必須使用最近鄰搜尋來找到點對應關系。此外,并非所有掃描點在相鄰掃描中都有對應的點。距離上以5厘米為門檻值,用于忽略那些不存在對應關系的點。一旦建立了點對應關系,就有可能将真實标簽從一個點雲轉移到另一個點雲,并且計算一個混淆矩陣。注意,這種對應關系的定義不是對稱的,點雲A在點雲B中的點對應關系不等于點雲B在點雲A中對應關系。對于每一對,我們計算兩個IoUi的值,結果表明最大的标簽分歧小于5%。當然,在移動物體上找不到對應關系,是以我們在圖5b中的評估中忽略了掃描僞影的類别。
7結論與展望
semantic3D.net基準提供了一套大規模高品質的地面雷射掃描資料集,其中有40多億個人工标注的點和一個标準化的評估架構。該資料集已于近期釋出,雖然送出的資料很少,但我們樂觀地認為,這種情況在未來會有所改變。首次送出的資料已經表明,最終CNNs開始在大型3維雷射掃描上優于更多傳統的方法,例如協方差基線。我們的目标是,在此基準上送出的資料将更好地比較和洞察,點雲處理方面的不同分類方法的優缺點,并希望有助于長期指導研究工作。我們希望該基準能夠滿足研究社群的需求,并成為開發新的、高效和準确的三維空間分類方法的主要資源。
緻謝
這項工作部分由瑞士國家科學基金項目163910、馬克斯普朗克CLS獎學金和瑞士CTI項目17136.1 PFES-ES資助。
引用
略
存疑的中英詞對照
ground truth label — 真實的标簽
baseline – 基線
benchmark – 基準
scans – 掃描
reduced challenge – 減小的挑戰
…