Abstract
視覺拓撲定位是各種移動自主機器人的一個典型過程,但如果考慮長時間的運作,則是一項複雜的任務。這是因為一個地方的外觀變化:動态元素、光照或天氣。由于這些問題,跨季節的長期視覺位置識别已經成為機器人社群面臨的一個挑戰。基于這個原因,我們提出了一種創新的方法,使用相機進行魯棒和高效的終身定位。在本文中,我們描述了我們的方法(ABLE),它包括三個不同的版本,這取決于圖像的類型:單目、立體和全景。這一特點使我們的方案更具适應性和有效性,因為它允許利用每一種相機可以提供的額外資訊。此外,我們提出了一種新的位置識别方法,該方法基于從圖像序列中提取的全局二進制描述符的快速比對。所提出的結果證明了使用ABLE的好處,并與最具代表性的最先進的算法在長期條件下進行了比較。
Keywords:
跨季節定位·視覺位置識别·環路閉合檢測·圖像比對·二進制描述符
1.Introduction
自主機器人和智能車輛通常需要魯棒定位方法,目的是正确地檢測其在現實世界中的位置,并根據這些資訊進行準确的導航。在過去的幾十年中,為了解決定位問題的重要挑戰(Durrant-Whyte and Bailey 2006;Bailey and Durrant-Whyte 2006),人們廣泛研究了從通用同步定位與映射(SLAM)算法中衍生出來的不同方法。在這些定位系統中,有幾種傳統的定位技術,如基于GPS或基于距離的定位技術。然而,在過去的幾年裡,機器人界也把基于相機的解決方案作為一個有趣的選擇。由于這個原因,由于錄影機特性、價格和尺寸的改進,加上計算機視覺算法在視覺slam等技術上的進步,視覺定位系統在最近的時間裡得到了廣泛的擴充(fuentes pacheco等人。2012;Alcantarilla等人,2013)或Visualodometry(ScaramuzzandFraundorfer 2011;Fraundorfer and Scaramuzza 2012)。
在不同的視覺定位方法中,位置識别通常是一個關鍵階段,因為它提供了關于所穿越環境的态勢感覺的有價值的資訊。此外,在視覺導航系統中,為了糾正累積的定位誤差,它通常用于檢測環路閉合和識别重訪位置。如williams等人所述。(2009)将求解視覺定位中環路閉合問題的算法分為三組:映射到映射(metric)(Clementeetal.2007)、圖像到映射(topometric)(Williams等人,2008)和圖像到圖像(topotopic)(Cumminsand Newman 2008)。
FAB-MAP (Cummins and Newman 2008)的提出使得視覺定位的拓撲方法得到了普及。FAB-MAP隻利用視覺外觀的空間來識别位置。然而, FAB-MAP需要一個預先的訓練階段,并且采用了一種計算開銷很大的方法,這種方法需要特征提取,然後進行機率推理,這使得該建議不适合實時應用。此外,視覺定位是複雜的,在長期的操作周期,由于強烈的外觀變化,一個地方遭受動态因素,照明,天氣或季節,可以觀察到的例子,圖1所示。是以,終身視覺拓撲定位是近年來機器人學中最具挑戰性的課題之一,提出的解決方案不僅要解決與環境變化相關的問題,而且要應用低計算量的高效算法。在實際情況下有效的成本。根據所描述的要求,圖1描繪了我們的方案的總圖,稱為able(能夠進行二進制外觀環路閉合評估)。
我們已經在機器人和自動車輛的不同國際會議上提出了一些與我們的方法相關的初步研究(Arroyo等人,2014年a、b、2015年)。在本文中,我們描述了我們的最終工作,其中解釋了ABLE的完整建議。此外,我們還提供了新的貢獻和結果,以驗證我們解決方案的多功能性和有效性:
- 為了提供更高的适應性,并充分利用能在機箱中獲得的額外圖像資訊,我們根據相機的類型提出了不同的ABLE版本:單目(ABLE-M)、立體(ABLE-S)或全景(ABLE-P)。
- 全局二值特征與基于漢明距離的比對和近似近鄰搜尋相結合應用于圖像描述,具有處理時間短、精度高等優點。
- 在所有情況下,使用圖像序列代替單個圖像,目的是在長期場景中更好地識别位置,如一些最先進的作品(如Milford和Wyeth(2012))所介紹的。
- 之前,為了将與視覺場所認知環境中不斷變化的光照條件和陰影相關的問題最小化,我們進行了光照不變變換,這一過程受到了Upcroft等人(2014)、McManus等人(2014)等人的創新啟發。
除了前面提到的一些方法,如fabmap,還有其他一些關于可視化拓撲本地化的傑出建議,這些建議将在第二節中讨論。在第三節中,我們介紹并解釋了我們的算法在描述和比對位置時所使用的二進制描述符的概念。在第4節中,我們的最終方法及其不同版本被廣泛描述。在第5節,我們定義了一個用于視覺位置識别和環路閉合檢測的客觀評價方法,其中測試在幾個公共資料集中進行,這些資料集具有不同的特征,記錄了長期不變的情況。在第6節中,提出了一系列新的結果,并與主要的最新算法進行了比較,以驗證我們的完整建議。最後,對本文的主要結論和今後的研究方向進行了讨論。
2 Related work
雖然fab-map可以看作是視覺拓撲定位研究中的一個裡程碑,但這類技術的初步研究早在幾年前就開始了(ulrich和nourbakhsh 2000)。此外,根據Fab-Map的研究路線,已經提出了大量新的方法,如Garcia Fidalgo和Ortiz(2015)或Lowry等人的調查所研究的。(2016年)。事實上,fab-map的作者在最近的論文(cum-mins和newman 2010a,b)中也對他們的算法進行了1000公裡的測試,這可能是文獻中第一個魯棒的終身視覺拓撲定位方法。此外,fab-map(paul和newman 2010)的3d實作也有助于合并幾何資訊,但在這種情況下,它隻在短期本地化中進行了測試。
Sekslam(Mil Ford and Wyeth 2012)是最近提出的一個最相關的視覺定位方案,該方案引入了将位置識别為序列而不是單個圖像的思想,與Fab-Map等先前的方案不同。Sekslam在具有挑戰性的終身視覺局部化情況下得到了令人滿意的評估,在陽光明媚的夏日和暴風雨肆虐的冬夜,同樣的路線被穿過。然而,在Sünderhauf等人。(2013)揭示了seqslam的一些缺陷,如視場依賴性和參數配置的影響。正如本文将要解釋的那樣,這些問題已經通過ABLE和其他最近專門研究改變觀點的困難的方法得到了改善(Pepperll等人。2014;勞裡和米爾福德2015)。
如今,由于植被變化、光照、天氣、動力因素等方面的原因,對一年中不同季節的旅遊景點進行長期的視覺定位是最具挑戰性的課題。原因很簡單,最近提出了一些建議來解決這些與季節變化有關的問題。Neubert et al.(2015)在Nordland dataset (Sunderhauf et al. 2013)中測試了一種基于外觀變化預測的位置識别新算法。這個公共資料集是我們測試中使用的資料集之一,在Mohan et al.(2015)等著作中也被用于評價,計算共現矩陣的目的是提高長期場景中位置比對的精度。事實上,johns and yang(2014)已經證明了在動态場景中共現對于位置識别的有效性。
此外,其他新技術也被應用于長期映射場景中的可視化定位任務。基于位置識别單詞袋的模型已經成功地應用于機器人領域,例如在Galvez-Lopez和Tardos(2012)中設計的模型。這種方法最近被用于改善單目SLAM系統中用于糾正漂移的閉環檢測性能(mu - artal et al. 2015)。其他關注季節變化的算法基于視覺體驗(Dym- czyk等,2015;(Linegar et al. 2015),定義為在一定條件下獲得視覺記憶的環境的外觀表征。此外,新的趨勢提出使用預先訓練的卷積神經網絡(CNNs)用于精确的時間位置識别(Sunderhauf et al. 2015)。然而,有監督的深度學習技術需要大量手工标注的資料來解決手頭的特定問題,而且它們的計算成本很高,這是在拓撲位置學習(Erkent和Bozma 2015)或Visu的環路閉合檢測方法中研究的。基于CNN的Al Slam(Gao和Zhang,2017)。
然而,嵌入式機器人系統可以使用更簡單的解決方案,如簡化圖像再現的計算,來減少記憶體資源和計算成本。在這方面,自動圖像縮放可以是一個有趣的想法,以實作更有效的替代環境的變化,如佩佩爾頂葉(2015)。此外,一些基于緊湊場景描述符的工作在跨季節地點識别方面取得了顯著的效果,如Masatoshi等(2015)。近年來另一種常用的技術是全局圖像描述符的應用,以實作高效的長期性能,并試圖獲得實時的視覺定位。解決方案類似于提出的方法《簡報》(SunderhaufandProtzel2011)是對這種趨勢最反感的。最近,一種基于全局圖像簽名的視覺環路閉合檢測方法(Negre-Carrasco et al. 2016)也被發表,證明了這些技術的擴散。在我們的例子中,ABLE應用了一種基于全局圖像描述的方法,使用了二進制特征,這些特征将在第3節中詳細解釋。
最後,盡管目前大部分算法都是為單目錄影機設計的,但也有一些特定的方法可以聚焦于立體和全景圖像。一方面,立體資訊允許獲得對環境幾何的更完整的描述,這在Cadena等人的作品中得到了應用。2010),Cadena等人。(2012),其中一個單詞袋模型與立體對的應用相結合,以檢查有效的空間變換就地比對。在我們的方法中,由ABLE-S定義的方法以類似的目的計算視差。另一方面,一些最先進的算法相信全景圖像可以在一年中的不同季節進行本地化(Valgren和Lilienthal 2010)。此外,其他作品也使用全景圖來實作更魯棒的閉環檢測(Murillo et al. 2013;Korrapati et al,2013;Korrapati和Mezouar 2017)。
全景圖的主要優點是,它允許在所有可能的方向上對環境進行視覺感覺,這可以用于探測在其他方向重新通路的地方。是以,ABLE-P還利用全景圖像在視覺拓撲定位中提供的額外視覺資訊,這将在本文的以下部分中得到證明。
3 Binary descriptors for visual location
應用二進制特征描述地點是我們終身視覺定位方案的主要特征之一。在開始詳細解釋ABLE之前,有必要介紹這類描述符的主要屬性及其工作方式,以了解在我們的方法中使用它們的主要好處。
二值描述符通常是從一組成對比較中構造出來的,這組比較來自一個采樣模式,該采樣模式通常集中在圖像的一個關注點上。采樣模式根據特定的二進制描述符而不同,它可以用于獲得對縮放和旋轉的不變性。計算描述符時。二進制特征中的每一個位都是精确比較的結果。
除了前面的考慮之外,還必須說明這些二進制特征是如何形成的,如果我們定義了一個以關注點x=(r,y)為中心的平滑圖像塊(p),二進制test(
)的特征是:
其中f (i)是一個函數,該函數傳回感興趣點的圖像特征響應,并将其與p中的某個像素或單元格的其他f (j)進行比較。根據這一點,f(i)可以簡單地是一個像素位置
處的平滑圖像強度(I),如BRIEF(calonder等)等二進制描述符所提出的。2012年),這可能是最流行的方法:
其中f (i)也可以是p中特定單元格(c i)上其他不同二進制比較、超平均二極體強度(i avg)和圖像梯度(G x, G y)的串聯,如LDB (Yang和程2014):
此外,我們還定義了一個新的二進制描述符d-ldb(arroyo等人,2014a),它還基于二進制描述過程中環境的幾何特征計算特征。這種新的政策旨在減少不同位置識别問題(如感覺混疊)的影響,并在長期情況下獲得更好的效果。我們的d-ldb描述符改進了ldb的初始方案,其中還對平均視差資訊(Davg)應用了幾個二進制比較:
作為構造二進制特征過程的最後一步,生成的描述符(d)被處理為n個二進制測試序列,其中n也是生成描述符的最終次元,可以根據系統需求或其他限制條件進行經驗調整。
先前關于二進制特征構造的定義給出了它們在有效地描述圖像方面的優勢。首先,這些描述符由一個簡單的位串接組成,一般來說,這涉及少量記憶體消耗,特别是如果将其與基于特征向量的描述符進行比較,例如SIFT (Lowe 2004)或SURF (Bay et al. 2008)。此外,二進制特征可以使用基本的Ham- ming距離進行比對(Muja和Lowe 2012),這比傳統的l2範數比對描述符的方法效率高得多。這種由漢明度(dist H)提供的效率是由計算它所需的計算隐含性(implicityofthecculation,由基本的XOR 操作(⊕)和基本的位群組成:
于上述優點,二進制特性已經在一些最先進的方法中用于描述視覺定位中的圖像。在這方面,Milford(2012)的一些實驗表明,少量的位掃描可以正确地識别出需要的位置。作為一個代表性的例子,在Galvez -等作品中Lopez和Tardos (2012), BRIEF被計算為一個用于位置識别的局部二進制描述符,在該描述符中,先前檢測到幾個感興趣的點,并從圖像序列中提取相關的局部特征。
除此之外,還有其他本地二進制檔案描述符通常應用在這些作品中,如快(Leuteneg——蒙古包et al . 2011年)或ORB (Rublee et al . 2011),加上旋轉和縮放不變性的最初短暫formu副調制,或狂(Alahi et al . 2012年),這是一個關鍵點描述符的靈感來自于人類的視覺系統和基于視網膜采樣模式。所有這些局部二進制描述符都隻關注圖像的強度資訊,不足以實作魯棒的終身視覺定位。由于這個原因,我們在ABLE中使用LDB,因為它還包含梯度比較,進而提供一個更高的descriptivenesspower。更具體地說,LDB用于ABLE-M和ABLE-P版本,但是在ABLE-S版本中,我們計算我們的D-LDB描述符,以便利用從立體圖像中獲得的視差提供的有價值的資訊,如圖2a所示。
此外,必須注意,ABLE不應用本地描述模型,在這兩種情況下,LDB和D-LDB都計算為全局二進制描述符。這種方法在計算上比局部方法更有效。此外,一些最新的位置識别算法在使用全局描述技術時也取得了顯著的效果,例如brief gist (sünderhauf 和 protzel 2011),它根據場景的要點計算出一個全局的簡短描述(Oliva和Torralba,2006)。其他類似的提議也提供了可接受的性能,例如lbp gist(campos等人。(基于lbpfeaturesojala等人或gabor-gist算法(liu和zhang 2012)。最後,還有一些全局描述符,由基于浮點數或基于向量的特性表示形式組成,比如WI-SIFT和WI-SURF (Badino et al. 2012)或HOG (Dalaland Triggs 2005),但是與局部描述符的主題相似,它們的性能不如全局二進制描述,如圖2b所示。
4 ABLE
ABLE是一個成熟的研究項目,它的最終目标是以魯棒的方式執行一個終生的視覺拓撲定位,并且一直保持最大的效率。在我們的最新出版物(Arroyo et al. 2014a,b, 2015)中可以看到我們的建議在開發過程中所取得的進展。之後,我們将解釋完整的方法,包括最後的貢獻,這些貢獻将通過新的測試進行驗證。