小黑導讀
論文是學術研究的精華和未來發展的明燈。小黑決心每天為大家帶來經典或者最新論文的解讀和分享,旨在幫助各位讀者快速了解論文内容。個人能力有限,了解難免出現偏差,建議對文章内容感興趣的讀者,一定要下載下傳原文,了解具體内容。
摘要
基于立體圖像對的深度估計已經成為計算機視覺中探索最多的應用之一,以往的方法大多依賴于完全監督學習設定。然而,由于難以獲得準确和可伸縮的地面真實資料,訓練全監督方法是具有挑戰性的。作為替代方案,自我監督的方法正變得越來越流行,以減輕這一挑戰。在本文中,作者介紹了H-Net,一個深度學習架構,用于無監督立體深度估計,利用極面幾何來改進立體比對。第一次,一個暹羅自編碼器體系結構用于深度估計,允許互相資訊之間的校正立體圖像被提取。為了加強對偶注意限制,設計了對偶注意機制,該機制在學習對偶資訊時,更加注重同對偶線上特征的對應關系。通過在注意機制中加入語義資訊,立體比對進一步增強。更具體地說,最優傳輸算法用于抑制注意和消除在兩個錄影機中不可見的區域的異常值。在KITTI2015和Cityscapes上進行的大量實驗表明,作者的方法在縮小與完全監督方法的差距的同時,優于目前最先進的無監督立體深度估計方法。
論文創新點
在本文中,作者按照無監督學習設定,并引入了H-Net,一種新的端到端可訓練網絡,用于給定校正立體圖像對的深度估計。所提出的H-Net有效地融合了立體對中的資訊,并将極面幾何與基于學習的深度估計方法相結合。綜上所述,作者在本文中的主要貢獻是:
作者設計了一種連體碼-連體譯碼網絡結構,融合了立體圖像對中的互補資訊,增強了它們之間的通信。據作者所知,這是第一次将該體系結構用于深度估計。
作者提出了一種雙向極注意子產品來加強特征比對的極注意限制,并強調了在校正立體圖像對中沿同一極線的特征之間的強關系。
作者通過使用最優傳輸算法加入新的時尚語義資訊并過濾出離群特征對應,進一步增強了所提注意子產品。
架構結構
H-Net架構。
基于最優傳輸的互極注意(OT-MEA)塊将OT檢索合并到MEA子產品中
實驗結果
KITTI Eigen分裂的定性結果。深度預測均為左輸入圖像。作者在最後一行的H-Net生成了具有更多細節的深度地圖,并且能夠更好地區分一個對象中的不同部分,如建築,路邊行人,灌木叢和樹木
Cityscapes資料集的定性結果。作者的H-Net生成非常接近的預測與地面的真相。
結論
在本文中,作者提出了一種新的網絡,H-Net,自監督深度估計,實作了最先進的深度預測。通過設計Siamese編碼器Siamese解碼器體系結構,利用互極關注,制定最優傳輸問題,有效地探索和融合了立體圖像對之間的全局距離對應和滿足極面限制的強相關特征對應。作者展示了這如何使公共資料集的整體性能受益,以及它們如何一起給評估措施帶來了巨大的改進,表明該模型有效地解決了其他自監督深度估計方法的局限性,并縮小了監督方法的差距。
論文連結:https://arxiv.org/pdf/2104.11288.pdf