NeurIPS 2021 六篇傑出論文公布，谷歌工程師 11 年前論文獲時間檢驗獎

NeurIPS 2021 将于下周正式召開。

今天，大會委員會公布了 NeurIPS 2021 的傑出論文獎，時間測試獎，以及今年新設的資料集和測試基準最佳論文獎。

今年有六篇論文被選為傑出論文獎的獲得者。委員會之是以選擇這些論文，是因為它們具有出色的清晰度、洞察力、創造力和持久影響的潛力。

A Universal Law of Robustness via Isoperimetry

論文位址：

https://openreview.net/pdf?id=z71OSKqTFh7

NeurIPS 2021 六篇傑出論文公布，谷歌工程師 11 年前論文獲時間檢驗獎

這篇論文來自微軟以及斯坦福大學，關鍵字為對抗魯棒性、過參數化和 isoperimetry（等周圖形學）。

獲獎理由：

本文提出了一個理論模型，來解釋為什麼許多 SOTA 深度網絡模型需要比平滑拟合訓練資料還需多得多的參數。

特别地，在訓練分布的某些規律性條件下，O (1)-Lipschitz 函數在标簽噪聲 scale 之下插入訓練資料所需的參數數量為 nd，其中 n 是訓練示例的數量，d 是資料的次元。

這一結果與傳統結果形成鮮明對比。傳統結果表明一個函數需要 n 個參數來插入訓練資料，而現在則發現，參數 d 似乎是保證資料平滑插入所必需的。

該理論簡單而優雅，和對 MNIST 分類具有魯棒泛化能力的模型規模的觀察結果也一緻。

這項工作還為 ImageNet 分類開發穩健模型所需的模型大小提供了可測試的預測。

On the Expressivity of Markov Reward

https://openreview.net/forum?id=9DlCh34E1bN

這篇論文來自 DeepMind、普林斯頓大學和布朗大學，研究方向為強化學習，通過檢查馬爾可夫獎勵函數可以表達什麼樣的任務來研究有限環境中馬爾可夫獎勵函數的表達能力。

馬爾可夫獎勵函數是不确定性和強化學習下順序決策的主要架構。

本文詳細、清晰地闡述了馬爾可夫獎勵何時足以或不足以使系統設計者根據其對行為、特定行為的偏好，或對狀态和動作序列的偏好來指定任務。

作者通過簡單的說明性示例證明，存在一些無法指定馬爾可夫獎勵函數來引發所需任務和結果的任務。

幸運的是，他們還表明，可以在多項式時間内确定所需設定是否存在相容的馬爾可夫獎勵，如果存在，也存在多項式時間算法來在有限決策過程設定中建構這樣的馬爾可夫獎勵。

這項工作闡明了獎勵設計的挑戰，并可能開辟未來研究馬爾可夫架構何時以及如何足以實作人類所需性能的途徑。

Deep Reinforcement Learning at the Edge of the Statistical Precipice

https://openreview.net/forum?id=uqv8-U4lKBe

論文來自谷歌、蒙特利爾大學和麥吉爾大學，研究方向也是強化學習。

方法的嚴格比較可以加速有意義的科學進步。本文提出了提高深度強化學習算法比較嚴謹性的實用方法。

具體而言，新算法的評估應提供分層的引導程式置信區間、跨任務和運作的性能概況以及四分位數均值。

該論文強調，在許多任務和多次運作中報告深度強化學習結果的标準方法，可能使評估新算法和過去方法之間的一緻性和提升變得困難，并通過實證示例說明了這一點。

所提出的性能比較方法旨在通過每個任務的少量運作進行計算，這對于許多計算資源有限的研究實驗室來說可能是必要的。

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

https://openreview.net/forum?id=Tqx7nJp7PR

論文作者來自華盛頓大學、艾倫研究所和斯坦福大學。

本文介紹了 MAUVE，這是一種比較模型生成文本分布與人類生成文本分布的散度度量。這個想法簡單而優雅，它基本上使用了被比較的兩個文本的量化嵌入的（soft）KL 散度測量的連續族。

本出提議的 MAUVE 度量本質上是對連續度量系列的內建，目标是捕獲 I 類錯誤（生成不切實際的文本）和 II 類錯誤（不捕獲所有可能的人類文本）。

實驗表明，與之前的散度名額相比，MAUVE 可以識别模型生成文本的已知模式，并且與人類判斷的相關性更好。

這篇論文寫得很好，研究問題在開放式文本生成快速發展的背景下很重要，而且結果很明确。

Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms

https://openreview.net/forum?id=bGfDnD7xo-v

本篇論文來自巴黎文理研究大學、洛桑聯邦理工學院、格勒諾布爾-阿爾卑斯大學、MSR-Inria 聯合中心。

本文描述了 Nesterov 加速梯度方法的“連續化”版本，其中兩個獨立的向量變量在連續時間内共同演化 —— 很像以前使用微分方程來了解加速度的方法 —— 但使用梯度更新，随機時間發生在泊松點過程。

這種新方法導緻了一種（随機化）離散時間方法：

(1) 與 Nesterov 方法具有相同的加速收斂性；
(2) 帶有利用連續時間參數的清晰透明的分析，這可以說比之前對加速梯度方法的分析更容易了解；
(3) 避免了連續時間過程離散化的額外錯誤，這與之前使用連續時間過程了解加速方法的幾次嘗試形成鮮明對比。

Moser Flow：Divergence-based Generative Modeling on Manifolds

https://openreview.net/forum?id=qGvMv3undNJ

本文作者來自魏茨曼科學研究學院、Facebook 和加州大學洛杉矶分校。

本文提出了一種在黎曼流形上訓練連續歸一化流 (CNF) 生成模型的方法。關鍵思想是利用 Moser (1965) 的結果，該結果使用具有幾何規律性條件的受限常微分方程（ODE）類來表征 CNF 的解，并使用散度明确定義目标密度函數。

本文提出的 Moser Flow 方法使用此解決方案概念，來開發基于參數化目标密度估計器的 CNF 方法。訓練相當于簡單地優化密度估計器的散度，回避運作标準反向傳播訓練所需的 ODE 求解器。

實驗表明，與之前的 CNF 工作相比，它的訓練時間更快，測試性能更出色，并且能夠對具有非常數曲率的隐式曲面的密度進行模組化。

時間檢驗獎

從去年開始，NeurIPS 時間檢驗獎（Test of Time Award）選擇了更廣的年限範圍。是以，今年大會委員會選擇 2010 年 2011 年論文。

在 16 篇引用量超過 500 的論文裡，委員會選擇了這篇論文：

Online Learning for Latent Dirichlet Allocation

https://proceedings.neurips.cc/paper/2010/file/71f6278d140af599e06ad9bf1ba03cb0-Paper.pdf

作者來自普林斯頓大學和法國國家資訊與自動化研究所。

第一作者 Matthew D. Hoffman 發表這篇論文時，曾經在普林斯頓攻讀博士學位，現在他是谷歌一名進階研究科學家。

本文介紹了一種基于随機變分梯度的推理過程，用于在非常大的文本語料庫上訓練潛在狄利克雷配置設定 (LDA) 模型。在理論方面，它表明訓練過程收斂到局部最優，令人驚訝的是，簡單的随機梯度更新對應于 ELBO 目标的随機自然梯度。

在實證方面，作者首次表明 LDA 可以輕松地在數十萬個文檔的文本語料庫上進行訓練，使其成為解決“大資料”問題的實用技術。

這個想法在機器學習社群産生了很大的影響，因為它是更廣泛模型類别的一般随機梯度變分推理過程的基礎。這篇論文之後，就沒有充分的理由再使用完整的批次訓練程式進行變分推理了。

資料集和基準測試最佳論文獎

今年 NeurIPS 推出了新的資料集和基準測試（Datasets & Benchmarks）賽道，表彰在資料領域的工作。

該領域的 2 篇最佳論文獎分别是：

Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research

https://openreview.net/forum?id=zNQBIBKJRkd

這篇論文作者來自加州大學洛杉矶分校和谷歌。

本文分析了數千篇論文并研究了不同機器學習子社群中資料集使用的演變，以及資料集采用和建立之間的互相作用。

作者發現，在大多數社群中，随着時間的推移，使用不同資料集的人更少了，而且人們使用的資料集基本都來自少數精英機構。

這種變化是有問題的，因為基準變得不那麼具有普遍性，這些資料集來源中存在的偏見可能會被放大，并且研究界更難接受新的資料集。

這對整個機器學習社群來說是一個重要的“警鐘”，讓他們更加批判性地思考哪些資料集用于基準測試，并更加重視建立新的、更多樣化的資料集。

ATOM3D: Tasks on Molecules in Three Dimensions

https://openreview.net/forum?id=FkDZLpK1Ml2

這篇文章作者來自于斯坦福大學和芝加哥大學。

本文介紹了一組基準資料集，其中包含小分子和/或生物聚合物的 3D 表示，用于解決單分子結構預測和生物分子之間的互相作用，以及分子功能和設計與工程任務問題。

這篇文章将 3D 模型的實作與具有 1D 或 2D 表示的 SOTA 模型進行基準測試，并顯示出比低維對應物更好的性能。這項工作提供了有關如何為給定任務選擇和設計模型的重要見解。

這項工作不僅提供了基準資料集，還提供了基線模型和開源工具來利用這些資料集和模型，大大降低了機器學習人員進入計算生物學和分子設計的門檻。