曠視研究院 AAAI 2023 入選論文亮點解讀

近日，國際人工智能頂級會議 AAAI 2023 （Association for the Advancement of Artificial Intelligence）公布了錄用結果。本屆會議共收到來自全球的 8777 篇論文投稿，其中 1721 篇論文被錄用，論文錄用率為 19.6%。

AAAI 是由國際人工智能促進協會主辦的年會，是人工智能領域中曆史最悠久、涵蓋内容最廣泛的國際頂級學術會議之一，也是中國計算機學會（CCF）推薦的 A 類國際學術會議。本屆會議曠視研究院被收錄的論文涵蓋 3D 重建、多目标跟蹤、視覺語言多模态、3D 檢測、圖像對齊等方向，下面是入選論文概覽：

Semi-supervised Deep Large-baseline Homography Estimation with Progressive Equivalence Constraint

基于漸進式等價限制的半監督深度大基線單應性矩陣估計

在大基線（large-baseline）場景中，由于圖像間的重合度低以及相對運動大使得單應性矩陣很難直接估計。為此，我們提出一種漸進式的估計政策，将 large-baseline 單應性矩陣轉換為多個中間項，将中間項累積相乘就可以重建初始單應性矩陣。我們引入了一種半監督的單應性一緻損失，包括用于優化中間項單應性矩陣的有監督項和基于累積重構在不使用光度損失的情況下優化 large-baseline 單應性矩陣的無監督項。同時，我們提出了一個大規模的資料集，涵蓋了正常和挑戰性場景。

所屬領域：圖像對齊/配準

關鍵詞：半監督、大基線單應性矩陣、圖像對齊

One is All: Bridging the Gap Between Neural Radiance Fields Architectures with Progressive Volume Distillation

一即一切：通過漸進式體蒸餾彌合神經輻射場架構間的差距

神經輻射場 NeRF可以高品質地重建三維場景，目前多種方法都在争奪其核心結構，包括MLP（NeRF）、張量（Plenoxels）、低秩張量（tensoRF）和哈希表（INGP）等。這些表示都有一定的适應場景，比如基于 hash 的 INGP 模型小、訓練快，但由于分辨率混疊等原因，其不如基于張量的 Plenoxels 更易實作對場景的空間編輯。為了彌補 NeRF 系列架構間差異，本文提出了漸進式體蒸餾（PVD）實作對上述不同架構間的任意轉換。通過 PVD 得到一個 NeRF 模型通常要比從頭訓練更快，且在部分資料集上品質更高。

論文連結：

開源連結：

所屬領域：3D重建

關鍵詞：神經輻射場、蒸餾、NeRF、INGP、Plenoxels、tensoRF

Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation

利用自然語言表征提升多目标跟蹤跨域跟蹤性能

本文首先指出目前的多目标跟蹤任務多在同一類場景下進行評測，即訓練集和測試集取自同一場景（比如MOT17，MOT20），現有的 SOTA 跟蹤器在不進行 fine-tune 的前提下直接應用在新場景跟蹤性能會大幅下降，為此本文首次提出利用自然語言的高層次語義資訊解決跨域跟蹤問題，首次将視覺語言預訓練模型 CLIP 并将其與 query-basedtracker 結合，基于此搭建的新的多目标跟蹤模型 LTrack 可在域内和跨域場景上均實作優異的跟蹤性能，為今後利用語言資訊與視覺資訊結合解決跟蹤問題提供一個新的思路。

所屬領域：多目标跟蹤，視覺語言多模态

關鍵詞：多目标跟蹤、視覺語言模型、跨域

BEVStereo: Enhancing Depth Estimation in Multi-view 3D Object Detection with Temporal Stereo

BEVStereo：利用時序立體提升環視 3D 檢測中的深度估計準确度

現有的在 3D 檢測中利用立體視覺提升深度估計的方法大多無法解決兩個問題：過多的顯存開銷以及無法解決運動物體。BEVStereo 通過引入動态立體視覺的方法解決了這個問題，并且提出了可以感覺物體尺寸的 circle NMS, 能夠避免計算 rotated IoU 的同時将 box 尺寸考慮進去。

論文連結：

開源連結：

所屬領域：3D 檢測

關鍵詞：動态立體視覺

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

BEVDepth：在 3D 目标檢測中擷取可靠深度

現有的基于 LSS 的 3D 目标檢測算法中，其深度預測子產品産生的深度預測結果不夠可靠，本文通過加入深度監督，引入相機内外參編碼以及深度精修子產品，使得 LSS 産生的深度預測變得更加可靠。

論文連結：

開源連結：

所屬領域：3D 檢測

關鍵詞：reliable depth

技術信仰，價值務實

曠廠小夥伴們還将帶來怎樣的技術創新？

讓我們一起期待吧！

曠視研究院 AAAI 2023 入選論文亮點解讀

繼續閱讀

【AAAI 2021】基于Attention的知識蒸餾：Knowledge Distillation via Attention-based Feature Matching論文位址：代碼位址：主要問題：主要思路：

【論文解讀 AAAI 2020 | Bi-GCN】Rumor Detection on Social Media with Bi-Directional GCN1 摘要2 引言3 Preliminaries4 Bi-GCN謠言檢測模型5 實驗6 總結參考文獻

[行為識别] 2018 AAAI 行為識别論文解讀Action DetectionAction Localization

【AAAI 2021】全部接受論文清單（六）

【AAAI 2021】全部接受論文清單（五）

【AI每日播報】 AAAI-17 收錄論文清單

論文閱讀：Self-supervised video representation learning with space-time cubic puzzlesContributionsMethodResults

AAAI 2020 | HACS運動定位冠軍方案基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

文本檢測算法:TextBoxes（AAAI2017）1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

AAAI 2023｜打破NAS瓶頸，新方法AIO-P跨任務預測架構性能

AAAI 2023 | 基于Conductance的高效率和高品質的圖聚類算法

【論文解讀 AAAI 2019 | UFD】Unsupervised Fake News Detection on Social Media: A Generative Approach1 摘要2 引言3 模型4 假新聞檢測算法5 實驗6 總結

AAAIW2023:增強下遊目标檢測中域漂移魯棒性的對比視圖設計政策

AAAI2023:相關性損失:加強分類和定位之間的相關性

AAAI2023:MRCN:一種新的可見-紅外ReID模态恢複與補償網絡

AAAI 2023 | 小鵬汽車紐約石溪：在末層激活上作對抗訓練的域自适應一、本文方法二、方法分析三、實驗四、分析五、結論