天天看點

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

作者:測繪學報
中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

本文内容來源于《測繪學報》2024年第2期(審圖号GS京(2024)0297号)

融合深度特征的無人機影像SfM重建

姜三1,2

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

, 劉凱1, 李清泉2

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

, 江萬壽3

1. 中國地質大學(武漢)計算機學院, 湖北 武漢 430074;

2. 人工智能與數字經濟廣東省實驗室(深圳), 廣東 深圳 518060;

3. 武漢大學測繪遙感資訊工程國家重點實驗室, 湖北 武漢 430079

基金項目:國家自然科學基金(42371442);湖北省自然科學基金(2023AFB568);人工智能與數字經濟廣東省實驗室(深圳)開放課題資助(GML-KF-22-08)

摘要:可靠特征比對是無人機影像運動恢複結構(SfM)的重要環節。近年來,深度學習被用于特征提取和比對,在基準資料集表現優于SIFT等手工特征。但是,公開模型往往采用網際網路照片進行訓練和測試,鮮有用于無人機影像SfM三維重建的性能評價。利用多組不同特點的無人機資料集,本文對比分析手工特征和深度學習特征在無人機影像特征比對和SfM三維重建的綜合性能。試驗結果表明,利用公開的預訓練模型,結合手工特征的高精度定位和深度學習的特征描述能力,可實作更準确和完整的特征比對,并在SfM三維重建中取得與SIFT等手工特征相當,甚至更優的性能。

關鍵詞:攝影測量 三維重建 運動恢複結構 深度特征 卷積神經網絡

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

引文格式:姜三, 劉凱, 李清泉, 等. 融合深度特征的無人機影像SfM重建[J]. 測繪學報,2024,53(2):321-331. DOI: 10.11947/j.AGCS.2024.20220636

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

JIANG San, LIU Kai, LI Qingquan, et al. Learned local features for SfM reconstruction of UAV images[J]. Acta Geodaetica et Cartographica Sinica, 2024, 53(2): 321-331. DOI: 10.11947/j.AGCS.2024.20220636

閱讀全文:http://xb.chinasmp.com/article/2024/1001-1595/20240211.htm

引 言

無人機具有高時效性、高靈活性和資料采集的高分辨率等特性,已成為攝影測量和計算機視覺領域的重要遙感平台[1-2]。內建普通相機的無人機傾斜攝影系統可擷取多視角的高分辨率影像,實作精細三維模型重建,在輸電線路巡檢、考古現場挖掘及智慧農業等領域得到了廣泛應用[3-4]。由于有限的載荷限制,無人機平台往往沒有內建高精度的POS(positioning and orientation system)系統,其應用很大程度依賴精确影像定位定向。鑒于不依賴未知數初值和高精度平差處理能力,增量式運動恢複結構(structure from motion,SfM)是目前無人機影像定位定向的關鍵技術[5-6],其處理流程包括影像比對和幾何解算兩個部分。其中,特征比對的目的是找到兩視或多視影像的同名點,包括特征提取、特征比對和粗差剔除3個步驟。特征比對是SfM幾何解算的基礎,決定其精度和穩健性。

在攝影測量和計算機視覺領域,特征比對得到了廣泛關注,從早期的角點檢測算子(Harris角點)到最近的尺度不變特征變換SIFT算子[7]及變體(RootSIFT[8]和DSPSIFT[9])。由于對尺度、旋轉、光照變化,以及視角變化的高容忍度,SIFT算法成為學術界和工業界最受歡迎的寬基線圖像比對方法之一。為了應對航空影像的特點和提高局部特征的性能,攝影測量和遙感領域的學者也提出了SIFT算法的改進方案,比如處理大幅面航空影像的L2-SIFT[10]和提高特征點分布均勻性的AB-SIFT[11]。除了這類手工特征,近年來也湧現出大量資料驅動的深度學習特征[12-13]。根據網絡模型的關注點,現有深度學習模型可分為3類。第1類模型利用卷積神經網絡(convolutional neural network, CNN)強大的表征學習能力[14],計算關鍵點局部影像塊的強可區分性特征描述子,包括早期的淺層網絡模型TFeat[15],到最近的深層網絡模型L2-Net[16]、HardNet[17]和GeoDesc[18]等。第2類模型直接處理輸入影像對,并檢測關鍵點和生成描述子,實作特征檢測子和描述子的端到端學習。典型的網絡模型包括自監督學習模型SuperPoint[19],先描述再檢測模型D2-Net[20],及其改進模型ASLFeat[21]等。除了上述聚焦于特征提取的模型,第3類模型則主要解決特征比對和粗差剔除。與經典最近鄰比對政策不用,這類深度學習模型聚合了更多上下文資訊,可以提高特征比對的數量和可靠性。經典模型包括基于注意力機制的SuperGlue[22]和基于密集預測的LoFTR[23]。

目前,深度學習特征在公開資料集上表現出比手工特征更好的性能,但是其用于無人機影像SfM三維重建的性能依然有待檢驗,主要原因包括:①這類深度學習模型往往采用計算機視覺近景圖檔訓練,比如HPatches資料集[24],模型的泛化性需要驗證;②現有評價名額聚焦在影像塊驗證和分類,與圖像比對的目的本質上不同;③特征比對隻是SfM三維重建的一個環節,其單獨評價名額并不能保證SfM三維重建性能。是以,本文在研究典型深度學習網絡模型的基礎上,利用無人機影像的特征比對和SfM三維重建名額進行性能評估,以分析深度學習特征對于無人機影像SfM三維重建的有效性。

1 對比方法

根據網絡的主要功能,本文選擇6個典型的網絡模型進行無人機影像特征比對和SfM三維重建性能評價。選擇的6個模型包括面向影像塊描述的L2-Net、HardNet和GeoDesc,面向影像對特征檢測和描述的D2-Net和ASLFeat,以及面向特征點比對的SuperGlue。同時,本文選擇了RootSIFT作為經典手工算法。

1.1 手工特征RootSIFT

經典的SIFT比對算法利用影像灰階梯度直方圖統計進行特征描述,并基于描述子歐氏距離最近準則實作特征比對。RootSIFT對SIFT特征進行擴充,使用平方根核心代替歐氏距離,度量SIFT描述子的相似性。試驗結果表明,RootSIFT的比對性能優于SIFT[8]。是以,本文選擇RootSIFT作為手工特征提取和比對的評估基準。

1.2 深層神經網絡L2-Net

L2-Net網絡[16]共由7個卷積層組成(圖 1),所有卷積層采用padding補0(除最後一層卷積)以保證圖像尺寸不變。為了保證描述符的性能,網絡采用步距為2的空洞卷積實作影像降采樣。除最後一層無激活層外,每個卷積層後接ReLU函數和BN(batch normalization)層,并且BN層的參數在訓練過程中不變。網絡最後使用LRN(local response normalization)層輸出128維的特征向量。在訓練資料建構時随機加入部分學習過的資料,讓網絡有機會回顧已經學過的内容。訓練中的負樣本來自正樣本輸出的描述符距離矩陣,且所有非對角線元素作為負樣本。L2-Net的損失函數包含3個誤差項:描述符相似度、描述符緊湊度和中間特征圖相似度;在度量描述子相似性時,使用相對距離劃分比對和不比對的圖像塊對。另外,為了學習多尺度特性,L2-Net也提供了中心環繞雙塔結構,輸出256維特征向量。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 1 L2-Net網絡結構及中心環繞雙塔結構Fig. 1 Network structure of L2-Net and its central-surround structure with two towers
圖選項

1.3 難負樣本挖掘網絡HardNet

除了網絡模型設計,訓練樣本采樣和Loss函數設計直接決定了網絡模型的學習性能。早期的深度網絡常采用影像塊對{p1, p2, l}和對比度損失函數(contrastive loss)實作對遠距離正樣本和近距離負樣本懲罰。然而,大部分負樣本距離明顯大于正樣本,導緻網絡無法高效學習高可區分的特征描述。受到SIFT比對中比值測試啟發,HardNet[17]提出難負樣本采樣(hard negative sampling)和三元組邊界損失函數(triplet margin loss),如圖 2所示。與L2-Net類似,HardNet根據正樣本對建構的描述符距離矩陣,為每個正樣本對{ai, pi}選擇一個距離最小的負樣本ni,即最難區分的非比對對,建構三元組樣本{ai, pi, ni}。然後,利用三元組邊界損失函數進行網絡訓練,其目的是增加網絡對正樣本及其對應最難區分負樣本對之間的相對距離,進一步提升網絡區分正負樣本的判别能力。HardNet采用L2-Net的網絡架構。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 2 HardNet難負樣本采樣政策Fig. 2 Hard negative sampling for HardNet
圖選項

1.4 幾何限制網絡GeoDesc

為了提高深度學習描述子在三維重建任務中的性能,GeoDesc[18]內建了多視圖重建的幾何限制,從訓練樣本生成、采樣到loss函數設計3個方面提升網絡的學習和泛化能力。采用傳統SfM三維重建方法建立三維物方點及其關聯二維影像塊的對應關系,并對得到的三維點采用Delaunay三角剖分方法過濾錯誤比對點,将保留的三維點及其二維影像塊作為訓練樣本。GeoDesc進一步設計了影像塊對的幾何相似度和影像對的幾何相似度,用來量化影像塊對比對的難易程度,以便選取對網絡訓練更有用的樣本。GeoDesc的損失函數包含兩項:結構損失函數和幾何損失函數。其中,結構損失函數能夠保證非比對點到比對點的距離足夠遠;幾何損失函數保證比對點的描述子足夠近。GeoDesc采用L2-Net的網絡結構。

1.5 同時檢測描述網絡D2-Net

由于特征檢測子所依賴的局部底層資訊(比如影像灰階)受到環境光照變化的影響明顯,導緻傳統先檢測再描述特征提取算法的可重複性顯著降低。為此,D2-Net網絡[20]采用同時檢測描述的思路進行特征提取(圖 3),其最大的特點是“一圖兩用”,即網絡生成的特征圖既代表特征檢測結果又代表特征描述結果。對于輸入CNN網絡U的影像I,可得到3D特征圖F=U(I), F∈Rh×w×n。其中n是特征圖的通道數;h×w是特征圖的高和寬。是以,從通道次元看,F可看作h×w個n維特征向量dij;從空間次元看,F可看作n個特征檢測子輸出的響應圖Dk。為了實作特征點提取,D2-Net設計了類似SIFT關鍵點檢測方法,即從空間次元和通道次元同時計算像素點的檢測得分sij。D2-Net采用VGG16網絡conv4_3前的部分,并在triplet margin ranking loss基礎上加入了提升特征點檢測可重複性的優化目标:利用檢測得分對triplet loss權重,保證顯著性描述子具有更高的檢測得分。D2-Net在網絡訓練時使用了低分辨率特征圖,測試時将分辨率提升到原圖的1/4,以提高特征定位能力。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 3 D2-Net同時檢測描述政策Fig. 3 Detect-and-describe strategy in D2-Net
圖選項

1.6 特征精确定位網絡ASLFeat

現有端到端學習的特征檢測和描述網絡忽略了特征點支撐域幾何變形和定位精度低的問題,導緻深度特征難以用于影像配準、三維重建等高精度幾何應用。是以,在D2-Net提出的同時檢測描述網絡模型的基礎上,ASLFeat[21]針對上述兩個問題進行優化(圖 4)。對于特征點支撐域幾何變形的問題,提出利用可變形卷積網絡(deformable convolutional network, DCN)學習預測特征點局部區域的幾何變換,得到具有視角不變的特征點支撐域。考慮到影像局部區域幾何變形的有限複雜度,ASLFeat分别利用相似、仿射和單應變換限制局部幾何變形。對于特征點定位精度低的問題,ASLFeat提出利用卷積網絡内在的金字塔分層特征,實作多尺度的特征點檢測,避免D2-Net在低分辨率特征圖上特征檢測所造成的低定位精度。另外,ASLFeat采用L2-Net的輕量化網絡:僅将L2-Net最後的8×8卷積層替換為3個3×3的DCN卷積層,并利用第2、4和9層輸出的特征圖實作多尺度特征檢測。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 4 ASLFeat網絡架構Fig. 4 Network structure for ASLFeat
圖選項

1.7 可靠特征比對網絡SuperGlue

與現有大部分網絡聚焦于特征點檢測和描述所不同,SuperGlue[22]利用神經網絡學習如何進行特征比對。其基本出發點是:網絡模型可以學習提取高可重複性、高可區分性的特征點。但是,弱紋理區域或重複結構往往導緻正常的特征比對政策并不能得到足夠數量的比對點,比如結合描述子歐氏距離和比值測試的比對政策。受到Transformer和圖比對思想的啟發,SuperGlue提出結合注意力機制和圖神經網絡的深度學習比對方法,如圖 5所示。整個網絡架構包括注意力圖神經網絡和最佳比對子產品。其中,注意力圖神經網絡模拟人尋找比對點的過程:将輸入的關鍵點pi=(x, y, c)和描述子di編碼為高維向量,并疊代利用自注意力和交叉注意力增強描述子的比對性能,得到子產品輸出的比對描述子fi。最佳比對子產品則模拟圖比對過程:利用比對描述子fi構造比對得分矩陣,将特征比對問題轉化為最優傳輸問題,并基于Sinkhorn算法疊代求解最佳的比對配置設定矩陣P(其行列元素和為1),實作特征點比對。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 5 注意力圖神經網絡SuperGlue架構Fig. 5 The framework of attentional GNN based SuperGlue
圖選項

2 驗證架構與評價名額

2.1 驗證架構

本文設計圖 6所示融合深度特征的SfM驗證架構。對于輸入無人機影像,首先進行特征提取和比對,得到可靠同名點;然後,基于SfM進行三維重建處理,生成影像位姿和三維點。根據上述網絡的不同功能在特征提取和比對階段進行不同處理。其中,影像塊描述網絡僅生成特征點局部patch的描述子。特征檢測描述網絡的輸入為影像對,無須依賴手工特征提取子產品。特征比對網絡的輸入為手工算法或網絡模型提取的特征點及其描述子。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 6 融合深度特征的SfM驗證架構Fig. 6 Learned feature embedded SfM framework
圖選項

上述驗證架構的關鍵步驟為:①利用RootSIFT算法提取特征點,并将生成的影像塊作為影像塊描述網絡的輸入或将特征點及其對應描述子作為特征比對網絡的輸入。RootSIFT是SIFT算法的改進,使用平方根核心代替标準歐氏距離測度,研究表明其性能優于SIFT。②無人機影像資料量大一方面導緻窮舉比對高計算代價,另一方面不便于算法對比分析。本文利用Oxford 5k資料集[25]訓練詞彙樹,并基于影像檢索技術生成每張影像最相似的20張影像,作為影像對選擇結果。③在檢索影像對的引導下,對于第1類和第2類網絡基于描述子歐氏距離最近測度(nearest neighbor,NN)進行特征比對,并結合比值測試和交叉驗證剔除粗差。然後,利用RANSAC的基本矩陣估計進行優化,得到最終比對結果。為了保證SfM三維重建精度,RANSAC的外點門檻值為1個像素。④得到的同名點作為SfM輸入,進行影像位姿和三維點平差解算。本文選擇COLMAP[26]作為SfM平差子產品。

2.2 評價名額

本文選擇特征比對和SfM三維重建的關鍵技術名額作為對比方法的評價名額,見表 1。這些評價名額主要分為3類,分别代表特征提取和比對、SfM三維重建和算法效率對比,可評估算法在上述驗證架構中的處理性能。通過使用這些評價名額,可以綜合評估特征提取與比對的性能、SfM三維重建的完整性和精度。

表 1 評價名額清單Tab. 1 List of evaluation metrics

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

表選項

3 試驗與結果分析

3.1 試驗資料

試驗資料包含4組多旋翼無人機影像。第1組資料包含低矮建築和裸地,如圖 7(a)所示。在300 m飛行高度下,采用分辨率為7360×4912像素的索尼ILCE-7R相機,共采集了157張影像,其地面采樣間隔(ground sampling distance,GSD)約為4.2 cm。第2組資料來自城市郊區,包含交叉的鐵軌,如圖 7(b)所示。采用一架搭載SONY RX1R雙相機傾斜攝影系統的多旋翼無人機,在165 m飛行高度下,共采集320張分辨率為6000×4000像素的影像,其GSD為5.1 cm。第3組資料沿着輸電線路進行采集,如圖 7(c)所示,采用雙相機傾斜成像系統采集了390張影像。第4組資料來自城區住宅區,如圖 7(d)所示。使用五鏡頭傾斜攝影系統,在175 m飛行高度采集了750張影像,分辨率為6000×4000像素,GSD為4.3 cm。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 7 4組試驗資料示例影像Fig. 7 Illustration images of the four datasets
圖選項

對于上述待評估的網絡模型,本文直接使用開放的預訓練模型,不再對其進行重新訓練。主要原因包括3個方面:①現有的基準資料集,比如Brown,能夠反映寬基線無人機影像的特點,包括視角差異和光照變化;②部分預訓練模型采用無人機資料集訓練,比如基于GL3D資料集的GeoDesc;③不同網絡模型依賴不同的訓練資料類型,比如Patch資料集和圖像資料集。所有待評估模型均使用預設參數。另外,本文試驗在CPU為3.6 GHz Intel Core i7-7700,顯示卡為8 GB NVIDIA GeForce GTX 1080的Windows系統開展。

3.2 特征比對

本文分析網絡模型在特征比對方面的性能。對于每組無人機影像,利用RooSIFT算法提取特征點,并基于詞彙樹檢索擷取每張影像最相似的20張影像,組成影像比對對,用于引導後續特征比對。表 2統計了特征比對結果。其中,最佳性能分别用紅色、綠色和藍色突出。圖 8是不同方法内點率和比對率的對比圖。

表 2 影像比對統計結果Tab. 2 Statistical results of feature matching

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

表選項

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 8 不同方法的内點率和比對率對比Fig. 8 Illustration of inlier and matching ratios
圖選項

試驗結果表明,以RooSIFT為手工特征比對基準,L2-Net、HardNet和GeoDesc所代表的影像塊描述網絡均能提升特征比對性能,其表現在提高影像比對對、内點率和比對率3項名額。HardNet和GeoDesc均采用L2-Net網絡架構,并在此基礎上分别增加難負樣本采樣政策和顧及幾何限制的損失函數設計,其在内點率和比對率方面的性能也是逐漸提升。對于4組試驗資料,内點率和比對率最大提升分别達到了6.8%和6.9%。

另外,D2-Net和ASLFeat的網絡輸入為影像對,實作聯合特征檢測和描述。但是由于在1/4原始影像分辨率的特征圖上進行關鍵點檢測,導緻D2-Net特征點的定位精度低,在3項評價名額上均遠低于其他對比方法。進而,ASLFeat采用多尺度特征檢測來提升特征點的定位精度,獲得所有對比方法的最佳性能。4組資料的内點率分别提升至39.9%、66.8%、64.4%和51.1%。盡管采用可變性卷積網絡DCN提升描述子的仿射不變性,但是ASLFeat依然不能很好地處理大傾角無人機影像,其最直接的表現是在資料1和資料4上的比對率分别為29.2%和30.3%,明顯低于RootSIFT和3個影像塊描述網絡。

對于SuperGlue所代表的特征比對網絡,能夠利用全局上下文資訊區分正确和錯誤比對點,顯著地提升了4組資料的比對率,分别達到了68.4%、63.3%、66.8%和61.9%。對于影像比對對和内點率兩項名額,SuperGlue在資料1和資料4上能夠達到與RootSIFT相當的性能。但是,對于資料2和資料3,其性能缺顯著降低。本文認為資料2和資料3屬于紋理和結構都相似的場景,給SuperGlue的特征提取和比對造成困難。

為了進一步分析不同方法的特征比對性能,選取資料4中的兩個影像對進行特征比對,并統計了内點數、初始比對數和内點率3個評價名額。試驗結果如圖 9和圖 10所示。其中,正确比對和錯誤比對分别利用綠線和藍線表示。第1個影像對視角差異較小。可以看出,RootSIFT與L2-Net,HardNet和GeoDesc的性能相當;由于僅利用歐氏距離測度,這4類方法的初始比對包含了大量的錯誤比對。采用聯合特征檢測和描述模型,D2-Net和ASLFeat可以顯著減少錯誤比對。但是,受限于特征點定位精度和對于大傾角透視變形的影響,導緻提取的比對點數量顯著降低,如圖 9(e)和(f)所示。相反,SuperGlue可以顯著減少明顯錯誤比對點,如圖 9(g)所示。考慮到SuperGlue采用SuperPoint進行特征提取,僅具有像素級的特征點定位精度。本文進一步設定RANSAC的外點門檻值為2、3個像素進行比對,其内點率快速提升至69.9%和79.4%。可以看出,SuperGlue的特征比對政策能夠顯著提升比對内點率。但是,當影像對視角差異較大時,聯合特征檢測描述網絡和特征比對網絡的性能顯著下降,直接導緻無法得到比對點,如圖 10(e)—(i)所示。這也導緻D2-Net,ASLFeat和SuperGlue擷取的影像比對對數量相對較少,見表 2。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 9 特征比對對比結果(内點數/初始比對數/内點率)Fig. 9 The result of feature matching (inlier number/initial match number/inlier ratio)
圖選項
中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 10 特征比對對比結果(内點數/初始比對數/内點率)Fig. 10 The result of feature matching (inlier number/initial match number/inlier ratio)
圖選項

3.3 SfM重建

利用上述比對結果,本文進一步分析不同特征提取和比對方法對SfM三維重建的影響。表 3統計了不同方法在SfM三維重建的完整性和精度方面的評價名額。試驗結果表明,在考慮連接配接影像數時,基于RootSIFT手工特征的比對方法,包括L2-Net、HardNet和GeoDesc能夠重建更多的影像;與特征比對類似,這類方法的性能也逐漸提升。由于特征點定位精度低或對大視角變形敏感等原因,D2-Net和ASLFeat重建的影像數最少,特别是資料1和資料4。受到重建影像數影響,對比方法在稀疏三維點方面的表現類似。其中,HardNet和GeoDesc整體上性能最優。值得注意的是,對于資料1和資料4,由于具有最高的比對率,SuperGlue生成稀疏三維點數量明顯多餘其他方法,相比次優結果增幅達到41.6%和71.9%。

表 3 SfM三維重建統計結果Tab. 3 The statistical results of SfM-based 3D reconstruction

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

表選項

考慮重投影誤差名額,得益于RootSIFT的高精度定位能力,L2-Net、HardNet和GeoDesc的重投影誤差基本上達到1個像素的精度,特别是對于傾角較小的資料2和資料3。與特征比對類似,D2-Net的精度最低,4組試驗資料的重投影誤差均大于1.3像素。另外,基于多尺度特征點檢測,ASLFeat和SuperGlue的SfM三維重建精度相當。對于資料2資料,圖 11顯示了基于不同方法特征比對點的SfM三維重建結果。

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期
圖 11 SfM三維重建結果Fig. 11 SfM-based 3D reconstruction
圖選項

3.4 效率對比

本文進一步分析了各個算法特征提取和比對的時間消耗,統計結果如表 4所示。其中,RootSIFT、D2-Net和ASLFeat的特征提取時間包括關鍵點檢測和描述子生成;由于輸入影像塊,L2-Net、HardNet和GeoDesc的特征提取時間僅涉及描述子生成;SuperGlue輸入特征點和描述子,沒有對應的特征提取時間。另外,除了SuperGlue通過網絡學習特征比對,其餘算法則基于描述子最近測度進行比對。結果表明,由于采用SIFTGPU加速庫,RootSIFT的特征提取效率最高。聯合特征檢測描述網絡D2-Net和ASLFeat的時間消耗更高。對于特征比對效率,D2-Net的描述子次元為512,導緻時間消耗高于其他算法。另外,SuperGlue采用網絡學習特征比對,其單張影像比對時間消耗達到34.01 s。由此可見,與深度學習模型相比,RootSIFT的效率能夠更好滿足高分辨無人機影像處理需求。

表 4 特征提取和比對效率統計Tab. 4 The efficiency comparison in feature detection and matching s

中國地質大學姜三博士:融合深度特征的無人機影像SfM重建 |《測繪學報》2024年53卷第2期

表選項

4 結論

本文以經典手工特征RooSIFT為基準,深入研究了最新提取出的深度學習網絡模型,涵蓋影像塊描述網絡、聯合特征檢測描述網絡和特征比對網絡3個類别。同時,利用4組無人機資料集,從特征比對和SfM三維重建兩個方面對比和分析了所選取的6個代表性網絡。結果表明,與手工特征相比,深度學習網絡模型能夠提取具有更高重複性、區分性的特征描述子;結合手工特征的高精度定位和深度學習的特征描述能力,可實作更準确和完整的特征比對,取得與SIFT等手工特征相當,甚至更優的性能。盡管目前的研究集中在端到端網絡架構設計,以實作聯合特征檢測和描述。但是,這類網絡依然存在關鍵點定位精度低的問題,導緻影像比對和SfM重建精度差。是以,後續研究将需要進一步提高特征點的定位精度。此外,本文使用預訓練模型進行性能評估,以驗證網絡模型對無人機影像的泛化能力。為了進一步提升性能,後續将考慮建構無人機訓練集對模型進行微調。

作者簡介

第一作者簡介:姜三(1987-), 男, 博士, 副研究員, 研究方向為多源影像比對和三維重建的理論和方法。E-mail: [email protected]

通信作者:李清泉 E-mail:[email protected]

初審:張豔玲複審:宋啟凡

終審:金 君

資訊

繼續閱讀