AAAI 2021 最佳論文公布

作者：Synced

翻譯：仿佛若有光

第三十五屆 AAAI 人工智能會議 (AAAI-21) 以虛拟會議的形式拉開帷幕。組委會在開幕式上公布了最佳論文獎和亞軍。三篇論文獲得了最佳論文獎，三篇被評為亞軍。

AAAI 2021 共收到 9,034 篇論文，再創曆史新高，超過了去年的 8800 篇。來自中國的論文（3,319 篇）幾乎是美國論文數量（1,822 篇）的兩倍。在 7,911 篇去評審的論文中，共有 1,692 篇論文通過。今年的錄取率為21%，略高于去年的20.6%。

點個關注，專注于計算機視覺

AAAI 2021 最佳論文公布

最佳論文獎

Informer：超越用于長序列時間序列預測的高效transformer

論文名稱：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

論文位址：https://arxiv.org/pdf/2012.07436.pdf (文末附下載下傳方式)

機構：北京航空航天大學、加州大學伯克利分校、羅格斯大學、北京國旺福達科技發展公司

作者：Haoyi Zhou、Shanghang Zhang、Jieqi Peng、Shuai Zhang、Jianxin Li、Hui Xiong、Wancai Zhang

摘要：許多實際應用需要預測長序列時間序列，例如用電規劃。長序列時間序列預測（LSTF）需要模型的高預測能力，即高效捕捉輸出和輸入之間精确的長期依賴耦合的能力。最近的研究表明 Transformer 具有提高預測能力的潛力。

然而，Transformer 存在一些嚴重的問題，使其無法直接應用于 LSTF，例如二次時間複雜度、高記憶體使用率以及編碼器-解碼器架構的固有限制。

為了解決這些問題，我們為 LSTF 設計了一個高效的基于 Transformer 的模型，名為 Informer，具有三個鮮明的特征：

(i）ProbSparse Self-attention 機制，在時間複雜度和記憶體使用方面實作了 O(Llog L)，并且具有序列依賴性比對的可比性能。

(ii) 自注意力蒸餾通過将級聯層輸入減半來突出主導注意力，并有效地處理極長的輸入序列。

(iii) 生成式解碼器雖然概念上很簡單，但在一次前向操作中而不是一步一步地預測長時間序列序列，這大大提高了長序列預測的推理速度。

在四個大規模資料集上的大量實驗表明，Informer 顯着優于現有方法，并為 LSTF 問題提供了新的解決方案。

多智能體學習中的探索-利用：災難理論遇到博弈論

論文：Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory

論文位址：https://arxiv.org/pdf/2012.03083.pdf (文末附下載下傳方式)

院校：新加坡科技與設計大學

作者：Stefanos Leonardos、Georgios Piliouras

摘要：探索-利用是多智能體學習 (MAL) 中一種強大而實用的工具，但其效果尚不清楚。為了在這個方向上取得進展，我們研究了 Q-learning 的平滑模拟。我們首先表明，我們的學習模型作為研究探索開發的最佳模型具有很強的理論依據。

具體來說，我們證明，對于明确捕獲遊戲和探索成本之間的平衡的成本模型，平滑 Q 學習在任意遊戲中具有有限的遺憾，并且它始終收斂到一組量子響應均衡（QRE），标準解決方案概念對于有限理性下的博弈，在具有異構學習代理的權重潛在博弈中。

在我們的主要任務中，我們然後轉向衡量探索對集體系統性能的影響。我們描述了低維 MAL 系統中 QRE 表面的幾何形狀，并将我們的發現與災難（分叉）理論聯系起來。特别是，随着探索超參數随着時間的推移而演變，系統會經曆相變，其中平衡的數量和穩定性可以從根本上改變，因為探索參數的變化非常小。

基于此，我們提供了一個正式的理論處理，說明如何調整探索參數可以證明導緻平衡選擇對系統性能産生積極和消極（并且可能是無限的）影響。

通過強化校準減輕語言模型中的政治偏見

論文名稱：Mitigating Political Bias in Language Models Through Reinforced Calibration

論文位址：https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf (文末附下載下傳方式)

機構：達特茅斯學院、德克薩斯大學奧斯汀分校、Google AI

作者：Ruibo Liu、Chenyan Jia、Jason Wei、Guangxuan Xu、Lili Wang 和 Soroush Vosoughi

摘要：目前的大規模語言模型可能會因其所訓練的資料而存在政治偏見，當它們部署在現實世界中時可能會導緻嚴重的問題。

在本文中，我們描述了測量 GPT-2 生成中政治偏見的名額，并提出了一個強化學習 (RL) 架構來減輕生成文本中的政治偏見。通過使用來自詞嵌入或分類器的獎勵，我們的 RL 架構指導去偏差生成，而無需通路訓練資料或需要重新訓練模型。在對政治偏見敏感的三個屬性（性别、位置和主題）的實證明驗中，我們的方法根據我們的名額和人工評估減少了偏見，同時保持了可讀性和語義一緻性。

最佳論文亞軍

從極端強盜回報中學習

論文名稱：Learning From Extreme Bandit Feedback

論文位址：https://arxiv.org/pdf/2009.12947.pdf (文末附下載下傳方式)

機構：加州大學伯克利分校、德克薩斯大學奧斯汀分校

作者：Romain Lopez、Inderjit Dhillon、Michael I. Jordan

摘要：我們研究了在極大動作空間的設定中從強盜回報中批量學習的問題。從極端強盜回報中學習在推薦系統中無處不在，其中在一天内對由數百萬個選擇組成的集合做出數十億個決策，産生大量觀察資料。

在這些大規模的現實世界應用中，盡管由于bandit回報和監督标簽之間的不比對而導緻顯着的偏差，但諸如極限多标簽分類 (XMC) 之類的監督學習架構被廣泛使用。這種偏差可以通過重要性采樣技術來減輕，但這些技術在處理大量動作時會出現不切實際的差異。

在本文中，我們引入了一種選擇性重要性采樣估計器 (sIS)，它在一個明顯更有利的偏差方差機制中運作。sIS 估計器是通過對每個執行個體的一小部分動作（Rao-Blackwellization 的一種形式）對獎勵的條件期望進行重要性采樣來獲得的。

我們在一個新的算法程式中使用這個估計器——稱為極端模型的政策優化 (POXM)——從強盜對 XMC 任務的回報中學習。在 POXM 中，sIS 估計器選擇的動作是日志政策的 top-p 動作，其中 p 是根據資料調整的，并且明顯小于動作空間的大小。

我們在三個 XMC 資料集上使用監督到強盜的轉換來對我們的 POXM 方法與三種競争方法進行基準測試：BanditNet、以前應用的部分比對修剪政策和監督學習基線。雖然 BanditNet 有時比日志記錄政策略有改進，但我們的實驗表明，POXM 在所有基線上都有系統且顯着的改進。

Self-Attention Attribution：解讀transformer内部的資訊互動

論文名稱：Self-Attention Attribution: Interpreting Information Interactions Inside Transformer

論文位址：https://arxiv.org/pdf/2004.11207.pdf (文末附下載下傳方式)

機構：北京航空航天大學、微軟研究院

作者：郝亞茹、李東、傅如薇、許柯

摘要：基于 Transformer 的模型的巨大成功得益于強大的多頭自注意力機制，該機制從輸入中學習令牌依賴性并編碼上下文資訊。先前的工作努力将模型決策歸因于具有不同顯着性度量的單個輸入特征，但他們未能解釋這些輸入特征如何互相作用以達到預測。

在本文中，我們提出了一種自注意力歸因算法來解釋 Transformer 内部的資訊互動。我們以BERT為例進行廣泛的研究。首先，我們提取每一層中最顯着的依賴關系來建構一個歸因圖，它揭示了 Transformer 内部的分層互動。此外，我們應用 selfattention 歸因來識别重要的注意力頭，而其他注意力頭隻能在邊緣性能下降的情況下進行修剪。

最後，我們表明歸因結果可以用作對抗性模式來實施對 BERT 的非針對性攻擊。

雙重任務巡邏：綠色安全的多臂強盜

論文名稱：Dual-Mandate Patrols: Multi-Armed Bandits for Green Security

論文位址：https://arxiv.org/pdf/2009.06560.pdf (文末附下載下傳方式)

機構：哈佛大學、卡内基梅隆大學

作者：Lily Xu、Elizabeth Bondi、Fei Fang、Andrew Perrault、Kai Wang、Milind Tambe

摘要：在綠色安全領域保護野生動物和森林的保護工作受到防禦者（即巡邏者）的有限可用性的限制，他們必須巡邏大片區域以防止攻擊者（例如偷獵者或非法伐木者）。防禦者必須選擇在保護區的每個區域花費多少時間，平衡不常通路區域的探索和已知熱點的開發。

我們将問題表述為随機多臂bandit，其中每個動作代表一個巡邏政策，使我們能夠保證巡邏政策的收斂速度。然而，幼稚的bandit方法會為了長期最優而損害短期性能，導緻動物被偷獵和森林被毀。

為了加快性能，我們利用獎勵函數的平滑性和動作的可分解性。我們展示了 Lipschitz 連續性和分解之間的協同作用，因為每個都有助于另一個的收斂。通過這樣做，我們彌合了組合bandit和 Lipschitz bandit之間的差距，提出了一種無悔方法，可以在優化短期性能的同時收緊現有保證。

我們證明了我們的算法 LIZARD 提高了高棉真實世界偷獵資料的性能。

原文連結：

https://synced.medium.com/aaai-2021-best-papers-announced-c32307f3d39b

在公衆号 “CV技術指南” 背景回複關鍵字 “ 0004 ” 可擷取以上論文。

本文來源于公衆号 CV技術指南的論文分享系列。

歡迎關注公衆号 CV技術指南，專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

在公衆号中回複關鍵字 “技術總結” 可擷取以下文章的彙總pdf。

AAAI 2021 最佳論文公布

其它文章

計算機視覺中的自注意力

經典論文系列--膠囊網絡：新的深度學習網絡

綜述專欄 | 姿态估計綜述

漫談CUDA優化

為什麼GEMM是深度學習的核心

使用深度神經網絡為什麼8位足夠？

經典論文系列 | 目标檢測--CornerNet & 又名 anchor boxes的缺陷

如何看待人工智能的泡沫

使用Dice loss實作清晰的邊界檢測

PVT--無卷積密集預測的多功能backbone

CVPR2021 | 開放世界的目标檢測

Siamese network總結

視覺目标檢測和識别之過去，現在及可能

在做算法工程師的道路上，你掌握了什麼概念或技術使你感覺自我提升突飛猛進？

計算機視覺專業術語總結(一)建構計算機視覺的知識體系

欠拟合與過拟合技術總結

歸一化方法總結

論文創新的常見思路總結

CV方向的高效閱讀英文文獻方法總結

計算機視覺中的小樣本學習綜述

知識蒸餾的簡要概述

優化OpenCV視訊的讀取速度

NMS總結

損失函數技術總結

注意力機制技術總結

特征金字塔技術總結

池化技術總結

資料增強方法總結

CNN結構演變總結（一）經典模型

CNN結構演變總結（二）輕量化模型

CNN結構演變總結（三）設計原則

如何看待計算機視覺未來的走向

CNN可視化技術總結（一）特征圖可視化

CNN可視化技術總結（二）卷積核可視化

CNN可視化技術總結（三）類可視化

CNN可視化技術總結（四）可視化工具與項目