天天看點

曠視研究院 AAAI 2023 入選論文亮點解讀

作者:曠視研究院

近日,國際人工智能頂級會議 AAAI 2023 (Association for the Advancement of Artificial Intelligence)公布了錄用結果。本屆會議共收到來自全球的 8777 篇論文投稿,其中 1721 篇論文被錄用,論文錄用率為 19.6%。

AAAI 是由國際人工智能促進協會主辦的年會,是人工智能領域中曆史最悠久、涵蓋内容最廣泛的國際頂級學術會議之一,也是中國計算機學會(CCF)推薦的 A 類國際學術會議。本屆會議曠視研究院被收錄的論文涵蓋 3D 重建、多目标跟蹤、視覺語言多模态、3D 檢測、圖像對齊等方向,下面是入選論文概覽:

01

Semi-supervised Deep Large-baseline Homography Estimation with Progressive Equivalence Constraint

基于漸進式等價限制的半監督深度大基線單應性矩陣估計

在大基線(large-baseline)場景中,由于圖像間的重合度低以及相對運動大使得單應性矩陣很難直接估計。為此,我們提出一種漸進式的估計政策,将 large-baseline 單應性矩陣轉換為多個中間項,将中間項累積相乘就可以重建初始單應性矩陣。我們引入了一種半監督的單應性一緻損失,包括用于優化中間項單應性矩陣的有監督項和基于累積重構在不使用光度損失的情況下優化 large-baseline 單應性矩陣的無監督項。同時,我們提出了一個大規模的資料集,涵蓋了正常和挑戰性場景。

曠視研究院 AAAI 2023 入選論文亮點解讀

所屬領域:圖像對齊/配準

關鍵詞:半監督、大基線單應性矩陣、圖像對齊

02

One is All: Bridging the Gap Between Neural Radiance Fields Architectures with Progressive Volume Distillation

一即一切:通過漸進式體蒸餾彌合神經輻射場架構間的差距

神經輻射場 NeRF可以高品質地重建三維場景,目前多種方法都在争奪其核心結構,包括MLP(NeRF)、張量(Plenoxels)、低秩張量(tensoRF)和哈希表(INGP)等。這些表示都有一定的适應場景,比如基于 hash 的 INGP 模型小、訓練快,但由于分辨率混疊等原因,其不如基于張量的 Plenoxels 更易實作對場景的空間編輯。為了彌補 NeRF 系列架構間差異,本文提出了漸進式體蒸餾(PVD)實作對上述不同架構間的任意轉換。通過 PVD 得到一個 NeRF 模型通常要比從頭訓練更快,且在部分資料集上品質更高。

論文連結:

開源連結:

曠視研究院 AAAI 2023 入選論文亮點解讀

所屬領域:3D重建

關鍵詞:神經輻射場、蒸餾、NeRF、INGP、Plenoxels、tensoRF

03

Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation

利用自然語言表征提升多目标跟蹤跨域跟蹤性能

本文首先指出目前的多目标跟蹤任務多在同一類場景下進行評測,即訓練集和測試集取自同一場景(比如MOT17,MOT20),現有的 SOTA 跟蹤器在不進行 fine-tune 的前提下直接應用在新場景跟蹤性能會大幅下降,為此本文首次提出利用自然語言的高層次語義資訊解決跨域跟蹤問題,首次将視覺語言預訓練模型 CLIP 并将其與 query-basedtracker 結合,基于此搭建的新的多目标跟蹤模型 LTrack 可在域内和跨域場景上均實作優異的跟蹤性能,為今後利用語言資訊與視覺資訊結合解決跟蹤問題提供一個新的思路。

所屬領域:多目标跟蹤,視覺語言多模态

關鍵詞:多目标跟蹤、視覺語言模型、跨域

04

BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection with Temporal Stereo

BEVStereo:利用時序立體提升環視 3D 檢測中的深度估計準确度

現有的在 3D 檢測中利用立體視覺提升深度估計的方法大多無法解決兩個問題:過多的顯存開銷以及無法解決運動物體。BEVStereo 通過引入動态立體視覺的方法解決了這個問題,并且提出了可以感覺物體尺寸的 circle NMS, 能夠避免計算 rotated IoU 的同時将 box 尺寸考慮進去。

論文連結:

開源連結:

曠視研究院 AAAI 2023 入選論文亮點解讀

所屬領域:3D 檢測

關鍵詞:動态立體視覺

05

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

BEVDepth:在 3D 目标檢測中擷取可靠深度

現有的基于 LSS 的 3D 目标檢測算法中,其深度預測子產品産生的深度預測結果不夠可靠,本文通過加入深度監督,引入相機内外參編碼以及深度精修子產品,使得 LSS 産生的深度預測變得更加可靠。

論文連結:

開源連結:

曠視研究院 AAAI 2023 入選論文亮點解讀

所屬領域:3D 檢測

關鍵詞:reliable depth

技術信仰,價值務實

曠廠小夥伴們還将帶來怎樣的技術創新?

讓我們一起期待吧!

繼續閱讀