AAAI 2023：清華SIGS資訊學部19篇論文入選，含多模态、目标檢測、語義分割等方向

2022

關注并星标

從此不迷路

計算機視覺研究院

AAAI 2023：清華SIGS資訊學部19篇論文入選，含多模态、目标檢測、語義分割等方向

計算機視覺研究院專欄

作者：Edison_G

AAAI是人工智能領域最重要的頂級國際學術會議之一，旨在推動人工智能領域的研究和應用，增進大衆對人工智能的了解。據悉，AAAI本年度共接收8777篇論文投稿，錄取率僅為19.6%。

公衆号ID｜ComputerVisionGzq

學習群｜掃碼在首頁擷取加入方式

概述

11月20日，國際人工智能頂級會議國際先進人工智能協會2023年會（AAAI 2023， Association for the Advance of Artificial Intelligence，2023）論文錄用結果釋出。

1.《基于對比掩碼自編碼器的自監督視訊哈希檢索》（Contrastive Masked Autoencoders for Self-Supervised Video Hashing），作者：計算機技術項目2022級碩士生王煜庭（導師：夏樹濤教授）

作者認為已有兩階段自監督視訊哈希檢索架構的訓練方式過于繁瑣，在實際應用中不夠實用。基于此，作者提出對比掩碼自編碼器的單一架構。作者首先利用高度時序掩碼來減少輸入視訊的資訊量和鄰接幀關聯，使模型能從重建中更好地了解視訊語義資訊。作者進一步将重建架構與執行個體判别性的對比學習結合，使模型能在單一階段内完成對視訊語義資訊和視訊間相似性關系的同步學習。在三個基準視訊資料集上的大量消融實驗和對比實驗證明了對比掩碼自編碼器架構的優越檢索性能。

圖1：對比掩碼自編碼器架構圖

2.《基于特征域塊比對的可學習分布式圖像壓縮算法》（Learned Distributed Image Compression with Multi-Scale Patch Matching in Feature Domain），作者：計算機科學與技術專業2022級博士生黃钰鈞（導師：夏樹濤教授）

為了更好地利用分布式壓縮場景下的邊資訊，作者提出了多尺度特征塊比對(MSFDPM)，以此在解碼端充分地利用邊資訊。具體而言，MSFDPM由一個邊資訊特征提取器、一個多尺度特征域塊比對子產品和一個多尺度特征融合網絡組成。此外，作者提出重用淺層塊間的相關性以加速深層的塊比對。最後，在多尺度特征域中的塊比對與圖像域塊比對方法相比，壓縮率提高了約20%。

圖2：不同方法的率失真曲線

3.《利用偏好沖突評分和梯度對齊對抗未知偏好》（Combating Unknown Bias with Effective Bias-Conflicting Scoring and Gradient Alignment），作者：計算機科學與技術專業2021級博士生趙博文（導師：夏樹濤教授）

依賴資料集中的捷徑實作既定目标的模型在魯棒性和泛化性上表現較差。鑒定-強調範式在處理未知偏好上顯示出不錯的潛力。然而，作者發現這一範式仍受到兩個挑戰的困擾：鑒定偏好沖突樣本的能力和後續的強調政策都尚不完備。作者提出了一種有效的偏好沖突評分方法（ECS）和一種基于梯度對齊（GA）的無偏模型訓練方式來解決以上兩個問題。不同設定下的多組資料集的實驗結果表明所提出的解決方案可以有效地減輕未知偏好對模型的影響。

圖3：整體糾偏方案示意圖

4.《用于加速圖像超分網絡的通用頻域架構》（FSR: A General Frequency-oriented Framework to Accelerate Image Super-resolution Networks），作者：計算機技術項目2022級碩士生李金敏（導師：夏樹濤教授）

作者認為目前的超分工作雖然取得了卓越的性能，但依然存在計算量過大、推理時間慢等問題，導緻無法應用到移動裝置端。本文提出一種通用的基于頻域的加速網絡，可以加速現有的大多數方法。在四種經典網絡和三個公開資料集上分别驗證了有效性，在保持原有方法性能的同時，平均減少了40%的計算量和50%的推理時間。本文共提出了三個創新點：轉換注意力塊用于提取全局特征、空間上下文塊用于提取局部特征、自适應的損失權重用于權衡空域損失和頻域損失。

圖4：所提出的FSR的整體架構

5.《基于多模态知識遷移的開放詞典多标簽學習》（Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer），作者：人工智能項目2020級碩士生何肅南（導師：夏樹濤教授）

基于圖文預訓練模型的開放詞典（Open-Vocabulary）分類模型在單标簽零樣本學習上取得了顯著效果，但如何将這種能力遷移到多标簽場景仍是亟待探索的問題。作者提出了一種基于多模态知識遷移（Multi-modal Knowledge Transfer, MKT）架構實作了多标簽的開放詞典分類。作者基于圖文預訓練模型強大的圖文比對能力實作标簽預測。為了優化标簽映射和提升圖像-标簽映射的一緻性，作者引入了提示學習（Prompt-Tuning）和知識蒸餾（Knowledge Distillation）。同時，作者提出了一個簡單但是有效的雙流子產品來同時捕捉局部和全局特征，提高了模型的多标簽識别能力。在NUS-WIDE和OpenImage兩個公開資料集上的實驗結果表明，該方法有效實作了多标簽的開放集合學習。

圖5：MKT模型架構圖

6.《基于視覺的常識擷取》（Visually Grounded Commonsense Knowledge Acquisition），作者：計算機技術項目2021級碩士生餘天予（導師：鄭海濤副教授）

目前的常識擷取方法往往隻關注于文本領域的常識擷取，但是這些方法受限于文本的稀疏性和報道的偏差。另一方面，視覺感覺提供了真實世界中大量的常識資訊，比如（人，可以抓住，瓶子）。作者提出了将視覺常識擷取定義為一個遠端監督的多樣本學習任務，并設計了相應的架構來解決此任務。實驗結果充分證明了有效性，并驗證了多個模态資訊的融合可以進一步提高常識擷取的品質。

圖6：常識歸納架構

7.《全局混合：用聚類消除歧義性》（Global Mixup: Eliminating Ambiguity with Clustering），作者：計算機技術項目2020級碩士生謝湘晉（導師：鄭海濤副教授）

資料增強的标簽确定和樣本生成一直以來都是一次性完成的，這将資料增強陷入兩難的困境：無法同時兼得具有較高置信度的标簽以及與原始樣本同質性低的樣本。為了解決這一問題，本文對全局混合（Mixup）相關的資料增強方法做出改進，挖掘特征的相似性并通過聚類關系為與原始樣本同質性低的增強樣本重标簽，消除因為線性插值所帶來的歧義性。本文在文本分類任務上驗證了方法的有效性，同時理論上支援任意資料增強方法的重标簽。

圖7：全局混合流程

8.《通過全局模态重構學習語義對齊的面向檢索的視訊-語言預訓練》（Learning Semantic Alignment with Global Modality Reconstruction for Video-Language Pre-training towards Retrieval），作者：計算機技術項目2019級碩士生李明超（導師：鄭海濤副教授）

視訊-語言預訓練對于基于文本的視訊檢索任務是十分重要的。之前的預訓練方法受限于語義不對齊的影響。其原因是這些方法忽略了序列對齊而關注于關鍵詞彙的對齊。為了減輕這個問題，論文提出了學習語義對齊的視訊-語言預訓練方法。具體地，使用了全局模态重構和跨模态自對比方法來更好地學習序列級别的對齊關系。論文使用了詳實的實驗在基于文本的視訊檢索任務和視訊時刻檢索任務上證明了此方法的有效性。

圖8：FEEL結構

9.《源域缺失目标檢測下的對抗域适應學習》（Adversarial Alignment for Source Free Object Detection），作者：人工智能項目2020級碩士生褚峤松（導師：李秀教授）

作者認為在源域資料缺失場景下，基于預訓練模型自訓練的傳統域适應方法過于依賴每輪疊代的僞标簽品質，是以作者将對抗學習的域适應對齊方法引入無源域資料目标檢測。作者提出了一種計算目标域資料方差的度量，實驗表明這種方法能夠在沒有标簽的情況下有效估計檢測結果的召回率，并将問題還原為有源的域适應目标檢測。在四種遷移場景下的實驗表明，該方法能有效地劃分目标域資料集。

圖9：多階段模型架構圖

10.《基于注意力評審團的資料高效圖像品質評價算法》（Data-Efficient Image Quality Assessment with Attention-Panel Decoder）作者：人工智能項目2021級碩士生秦冠羿（導師：李秀教授）

由于品質評價資料集樣本數量少，且視覺注意力模型預訓練資料域和微調資料域的注意分布不同，是以，基于視覺注意力模型的圖像品質評價算法無法學習出較好的泛化能力。作者在視覺注意力模型中引入解碼器，并基于解碼器實作了注意力評審團機制。該機制為模型提供了更多的可能特征表達，能夠重建立立起适合下遊任務的注意分布。通過在多個圖像品質評價資料集上訓練測試，該算法展示出了強大的泛化能力與資料效率。

圖10：模型結構圖

11.《面向稀疏标注目标檢測的校正教師模型》（Calibrated Teacher for Sparsely Annotated Object Detection），作者：人工智能項目2020級碩士生王颢涵（導師：王好謙教授）

稀疏标注目标檢測旨在解決目标檢測的訓練圖檔中，部分執行個體未被标注的問題。近年來的研究采用基于僞标簽的方法挖掘未被标注的執行個體用于訓練，但選擇用于篩選僞标簽的置信度門檻值需要大量的實驗調參。作者設計了一個基于置信度校正的教師-學生網絡架構，引入一個可學習的校正器，将僞标簽候選框的置信度校正為無偏置信度，進而統一了不同檢測器在不同訓練時期下的門檻值選擇規律。該方法極大簡化了調參工作量，并在COCO資料集下的多組稀疏标注的實驗設定下取得了行業内的最佳性能。

圖11：不同檢測器/不同訓練時期置信度校正示意圖

12.《從數字病理圖像進行患者級生存預測的分層視覺轉換器》（HVTSurv: Hierarchical Vision Transformer for Patient-level Survival Prediction from Whole Slide Image），作者：人工智能項目2021級碩士生邵朱晨（導師：王好謙教授）

在患者級多執行個體學習中，基于數字病理圖像的生存預測是一項具有挑戰性的任務。由于患者的大量資料（一個或多個切片）和切片的不規則形狀特性，模型很難在患者級包中充分探索空間、上下文和層次互動。作者提出了一個分層視覺轉換器架構，使用來自癌症基因組圖譜的 6 種癌症類型的 3104 名患者和 3752 個數字病理圖像驗證有效性。在6個資料集上，平均名額比此前的弱監督方法高2.50-11.30%。消融研究和注意力可視化進一步驗證了其優越性。

圖12：特征的預處理以及分層聚合架構

13.《截斷-分離-對比：一種學習噪聲視訊的架構》（Truncate-Split-Contrast: A Framework for Learning from Mislabeled Videos）作者：計算機技術項目2021級碩士生王子嘯（導師：袁春教授）

帶噪學習是一個經典問題，已有的研究大多集中于圖像任務，而視訊任務卻少有探索，将已有的方法直接從圖像遷移到視訊上并不可取。本文提出了适用于視訊帶噪學習的兩個新政策：一個名為通道截斷的通道挑選方法用于基于特征的标簽噪聲檢測；一個名為噪聲對比學習的新的對比政策。實驗表明，作者提出的方法顯著超越已有的基線方法。通過将次元減少到原來的百分之十，所提方法在含有大量噪聲（80%對稱噪聲）的Mini-Kinetics資料集上取得了超過0.4的噪聲檢測F1分數的提升以及5%的分類準确率提升。噪聲對比學習還為Mini-Kinetics和Sth-Sth-V1資料集帶來了平均超過1.6%的分類準确率提升。

圖13：提出的方法在帶噪資料集上的訓練流程

14.《達爾文範式模型更新：基于選擇性相容的模型進化》（Darwinian Model Upgrades: Model Evolving with Selective Compatibility），作者：資料科學和資訊技術項目2019級碩士生張斌傑（導師：袁春教授）

為了解決現有相容方法存在的新模型鑒别力與新-舊模型相容性之間此消彼長的困境，本文提出了達爾文模型更新新範式。該範式将模型更新過程中的繼承與進化階段解耦，通過選擇性後向相容訓練實作對舊特征的繼承，通過一個輕量化的前向進化分支實作對舊特征的進化。

圖14：達爾文範式模型更新的訓練架構

15.《動态內建低保真度專家——緩解神經架構搜尋“冷啟動”》（Dynamic Ensemble of Low-fidelity Experts: Mitigating NAS “Cold-Start”），作者：電子與通信工程項目2021級碩士生趙俊博（導師：廖慶敏教授）

基于預測器的神經架構搜尋存在嚴重的“冷啟動”問題，因為需要大量的架構-真實性能資料才能獲得一個有效的預測器。本文專注于利用低保真度資訊以緩解預測器訓練對大量資料的需求。為更好地融合不同類型的低保真資訊提供的有益資訊，本文提出了一種動态內建預測架構，在有限的資料量下大幅提升了預測器的預測能力。例如，在NDS-ResNet搜尋空間中僅使用25個架構-真實性能資料，所提方法将實際性能與預測得分之間的肯德爾相關系數從0.2549提高到0.7064。此方法可以輕易地與現有的基于預測器的神經架構搜尋架構結合，以發現更好的架構。

圖15：方法動機與架構示意圖

16.《針對安全關鍵任務的無模型強化學習算法評估》(Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks) 作者：人工智能項目2020級碩士生張麟睿（導師：王學謙教授）

在自主智能體的應用中，安全性至關重要，但目前尚缺乏對複雜動力學環境下滿足逐狀态安全限制的強化學習算法評估。在本文中，作者重新思考了先前工作并将它們分别歸類為基于投影、基于恢複和基于優化的方法。此外，作者還提出了展開安全層算法。該算法結合了安全優化和安全投影的優勢，通過深度展開架構強制滿足硬限制，在限制政策優化和執行過程中具有顯式結構優勢。為了促進進一步研究，作者開源了SafeRL-Kit算法庫。該算法庫包含相關算法在統一的架構中的實作，為安全關鍵任務提供了即插即用的接口和評估基準。

圖16：本文開源的SafeRL-Kit代碼庫實作

17.《音由相生：從三維臉型到個性化語音》（What Does Your Face Sound Like? 3D Face Shape Towards Voice），作者：計算機技術項目2021級碩士生楊智涵（導師：吳志勇副研究員）

基于人臉生成個性化語音在影視配音、短視訊創作等領域具有廣泛的應用前景。作者在該領域首次引入三維臉型資訊，提出了一種從三維臉型到個性化語音音色的語音生成方法。三維臉型資訊與決定人類音色的骨傳導特性直接相關，與語音特征有明确的解剖學關系，具有更好的可解釋性；還具有獨立于光照、姿态等的天然優勢，可以解耦無關因素更準确控制音色。主客觀實驗均表明，所提方法可以生成與人臉更比對的語音；還可以通過控制人臉臉型生成多樣化、個性化的定制語音，具有更好的可解釋性和可控性。感謝賈珈教授、吳昊哲師兄對論文工作的支援。

圖17：基于三維臉型資訊生成個性化音色語音的方法總體架構

18.《基于資料合成和特征一緻性限制的組織病理圖像弱監督語義分割》（Weakly-Supervised Semantic Segmentation for Histopathology Images Based on Dataset Synthesis and Feature Consistency Constraint），作者：計算機技術項目2022級碩士生方子介（導師：王智副教授）。

作者認為傳統的弱監督語義分割大多基于類激活映射方法，其面臨着分割邊界不精準的問題。病理組織結構的同質性更強化了這一缺陷。作者提出了一種新的弱監督組織病理圖像分割架構PistoSeg。首先，基于馬賽克變換，提出了一種能夠生成像素級掩模的資料合成方法；其次，考慮合成圖像與真實圖像之間的差異，設計了一種基于注意力機制的特征一緻性限制，對合成的僞掩模進行進一步優化。最後，利用優化後的僞掩模訓練精确分割模型進行測試。基于WSSS4LUAD和BCSS-WSSS的實驗驗證了所提出方法在弱監督組織病理圖像分割任務上的優越性。

圖18：PistoSeg架構的總體架構

19.《一種基于記憶體結構化剪枝的圖像複原模型優化方法》（Memory-Oriented Structural Pruning for Efficient Image Restoration），作者：電子與通信工程2020級碩士生史祥生（導師：董宇涵副教授）

基于深度學習的圖像複原（Image Restoration）模型的硬體資源開銷非常龐大，限制了它們在移動端等實際場景中的應用。為了改善深度圖像複原模型的峰值記憶體開銷，作者提出了一種專注于記憶體優化的結構化剪枝（MOSP）方法。為了壓縮長距離跳躍連接配接（圖像複原模型記憶體開銷的一大來源），作者在跳躍連接配接上引入壓縮器（Compactor）子產品，以解耦跳躍連接配接和主分支的剪枝過程。MOSP方法采用一種疊代剪枝的範式，逐漸優化模型各層的記憶體開銷。與基線剪枝方法相比，MOSP方法可在不顯著影響剪枝模型任務性能的同時優化其記憶體開銷。

圖19：方法架構圖

轉載：SIGS資訊科學與技術學部

END

轉載請聯系本公衆号獲得授權

計算機視覺研究院學習群等你加入！

ABOUT

計算機視覺研究院

計算機視覺研究院主要涉及深度學習領域，主要緻力于目标檢測、圖像分割、模型量化、模型部署等研究方向。研究院接下來會不斷分享最新的論文算法新架構，我們這次改革不同點就是，我們要着重”研究“。之後我們會針對相應領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手程式設計愛動腦思考的習慣！

VX：2311123606

AAAI 2023：清華SIGS資訊學部19篇論文入選，含多模态、目标檢測、語義分割等方向

繼續閱讀

使用opencv的dnn子產品進行人臉檢測

YOLOv8來啦 | 詳細解讀YOLOv8的改進子產品！YOLOv5官方出品YOLOv8！1、YOLOv5回顧2、YOLOv8核心介紹參考文章

對YOLO-v1的了解及閱讀筆記YOLO-v1 閱讀筆記

yolox運作報錯--can‘t find starting numberyolox運作報錯–can’t find starting number

【論文閱讀筆記】Deep Neural Networks for Object Detection

【論文閱讀筆記】CenterNet：Objects as Points

【論文閱讀筆記】ThunderNet: Towards Real-time Generic Object Detection

【ICLR2019】Oral 論文彙總

【ICLR2019】Poster 論文彙總

目标檢測系列（IV）：YOLO V1、YOLO V2、YOLO V3

pp-picodet從環境配置到部署全流程（5）——PaddleLite端側部署1. PaddleDetection支援的部署形式說明

目标檢測架構｜又一新架構來襲，關系網絡用于目标檢測（文末附源碼）

yolov7 tensorrt模型加速部署【實戰】

目标檢測：YOLOV3論文解讀一、yolov3論文解讀

Pytorch機器學習（九）—— YOLO中對于錨框，預測框，産生候選區域及對候選區域進行标注詳解 Pytorch機器學習（九）—— YOLO中錨框，預測框，産生候選區域及對候選區域進行标注詳解前言一、基本概念二、代碼講解總結

2021-09-30三維點雲測量正方形包裹體積