天天看點

【幹貨】2017年深度學習必讀31篇論文(附論文下載下傳位址)

一如既往,首先,标準免責聲明适用,因為今年僅與GAN有關的論文就超過1660篇。我肯定會有疏漏,試圖縮減到每兩周一篇論文,包含了Imperial Deep Learning Reading Group上的大量素材。無論如何,我們開始吧。

架構/模型

今年的Convnet網絡架構已經少得多,一切都穩定了。 有些論文肯定是在推動這項研究。 其中首先是安德魯·布魯克(Andrew Brock)的破解SMASH,盡管有ICLR的評論,但它已經在1000個GPU上進行了神經架構搜尋。

SMASH:基于超網絡的模型結構搜尋

SMASH : one shot model architecture search through Hypernetworks

DenseNets(2017更新版)是一個印象深刻又非常單純的想法。TLDR是“計算機視覺,眼+皮毛=貓,是以萬物互聯(包括層)”

密集的連接配接卷積神經

Densely connected convolutional networks

在CNNs,一個非常被低估的理念是小波濾波器組系數散射變換(conv+maxpool和ReLUctant組建小波理論)。不知何故,令人驚訝的是,這揭示了為什麼一個ConvNet前幾層像Gabor濾波器,以及你可能不需要教育訓練他們。用Stephane Mallat的話,“我對它的工作原理非常吃驚!”見下文。

縮放散射變換

Scaling the Scattering Transform

在維基百科上,Tensorized LSTM是新的SOTA,有人英語的編碼限制是1.0,1.1 BPC(作為參考,LayerNorm LSTMs大約是1.3 bpc)因為新穎,我更願意把這篇論文定為“超級網絡的複興之路”。

序列學習Tensorized LSTMs

Tensorized LSTMs for sequence learning

最後,無需多言。

膠囊間動态路由

Dynamic Routing Between Capsules

<a href="https://arxiv.org/pdf/1710.09829.pdf">https://arxiv.org/pdf/1710.09829.pdf</a>

EM路由矩陣膠囊

Matrix capsules with EM routing

生成模型

我故意遺漏了英偉達關于GAN網絡逐漸增大的令人頗為震驚的論文。

先用自回歸家庭–Aaron van den Oord的最新力作,vq-vae,是其中的一個檔案,看起來明顯的滞後,但想出背景漸變止損功能也是不小的壯舉。我敢肯定,一堆的疊代,包括包在ELBO’ed Bayesian層中的ala PixelVAE将會發揮作用。

神經離散表示學習

Neural Discrete Representation Learning

另一個驚喜來自并行WaveNetwavenet。當每個人都在期待着與Tom LePaine的工作成果保持一緻,DeepMind給我們師生分離,并通過解釋高維各向同性高斯/物流潛在空間,作為一個可以通過逆回歸流自噪聲整形的過程,。非常非常整潔。

并行Wavenet

Parallel Wavenet

頭号檔案,沒有人預料到- Nvidia公司制定了标準。GAN理論完全代替了Wassersteinizing (Justin Solomon的力作),僅保持KL損失。用資料分布的多分辨率近似摒棄了不相交的支援問題。這仍然需要一些技巧來穩定梯度,但經驗結果不言自明。

GAN逐漸增長

Progressive growing of GANs

而今年早些時候Peyre和genevay負責的法國學校定義了最小Kantorovich Estimators。這是Bousquet主導的谷歌團隊,該團隊曾寫下了 VAE-GAN的最終架構。這篇WAAE論文可能是ICLR2018最頂級的論文之一。

VeGAN手冊

The VeGAN cookbook

Wasserstein自動編碼器

Wasserstein Autoencoders

在變分推理面前,沒誰比Dustin Tran從強化學習政策和GAN中借鑒到的思路更好,再次推動了先進的VI。

層次式模型

Hierarchical Implicit Models

強化學習

“被軟體/ max-entropy Q-learning主導了一年,我們錯了,這些年!

Schulman證明了RL算法的主要的兩個成員之間的的等價性。裡程碑式的論文,”Nuff 稱。

政策梯度與Soft Q-learning的等價性。

Equivalence between Policy Gradients and Soft Q-learning

他有沒有在非常仔細的用數學和重新做分區函數計算來證明路徑的等價性?沒有人知道,除了Ofir:

縮小RL政策和價值之間的差距

Bridging the gap between value and policy RL

另一篇被低估的論文,Gergely通過找出RL程式和convex 優化理論的相似點,默默的超越了所有人。今年IMHO有關RL論文的佳作,不過知名度不高。

統一的熵規則MDP的觀點

A unified view of entropy-regularized MDPs

如果David Silver的Predictron因某種方式丢掉雷達在ICLR 2017被拒絕,那麼Theo的論文就像是一個雙重的觀點,它以優美而直覺的Sokoban實驗結果來啟動:

想象力增強劑

Imagination-Augmented Agents

馬克·貝萊馬爾(Marc Bellemare)釋出了另外一個轉型的論文 - 廢除了所有的DQN穩定插件,并簡單地學習了分發(并且在這個過程中擊敗了SotA)。 漂亮。 許多可能的擴充,包括與Wasserstein距離的連結。

有分位數回歸的RL

A distributional perspective on RL

分布RL的分布視角

Distributional RL with Quantile Regression

一個簡單,但非常有效,雙重whammy的想法。

勘探用噪聲網絡

Noisy Networks for Exploration

當然,如果沒有AlphaGo Zero的話,這個清單還是不完整的。 将政策網絡MCTS前後對齊的思想,即MCTS作為政策改進算法(以及使NN近似誤差平滑而不是傳播的手段)是傳說的東西。

在沒有人類知識的情況下掌控Go遊戲

Mastering the game of Go without human knowledge

SGD &amp; 優化

對于為什麼SGD在非凸面情況下的工作方式(從廣義誤差角度來看如此難以打敗),2017年已經是一年一度的成熟了。

今年的“最技術”論文獲得者是Chaudhari。 從SGD和梯度流向PDE幾乎連接配接了一切。 堪稱遵循并完成“Entropy-SGD”的傑作:

深度放松:用于優化深度網絡的偏微分方程

Deep Relaxation : PDEs for optimizing deep networks

貝葉斯認為這是Mandt&Hoffman的SGD-VI連接配接。 如你所知,我多年來一直是一個繁忙的人,原文如此。

SGD作為近似貝葉斯推斷

SGD as approximate Bayesian inference

前面的文章取決于SGD作為随機微分方程的連續松弛(由于CLT,梯度噪聲被視為高斯)。 這解釋了批量大小的影響,并給出了一個非常好的chi-square公式。

批量大小,diffusion近似架構

Batch size matters, a diffusion approximation framework

又一篇受Ornstein-Uhlenbeck啟發的論文,得到了類似的結果,出自Yoshua Bengio實驗室:

影響SGD最小值的三個因素

Three factors influencing minima in SGD

最後,又一篇Chandhari的論文,講述SGD-SDE-VI三位一體:

SGD執行VI,收斂到限制周期

SGD performs VI, converges to limit cycles

理論

我堅信在解釋深度學習為什麼有用方面,答案将來自諧波/二階分析和資訊論與基于熵的測量之間的交集。 Naftali Tishby的想法雖然因為最近ICLR 2018送出的内容引發了争議,但這仍然使我們更加接近了解深度學習。

論通過資訊論揭開深度網絡黑箱

Opening the black box of deep networks via information

論深度學習的資訊瓶頸理論

On the information bottleneck theory of deep learning

同樣,來自ICLR2017的一篇漂亮的論文對資訊瓶頸理論采取了一種變化的方法。

深度變分的資訊瓶頸

Deep variational information bottleneck

今年已經有幾十億個生成模型,12億個因子分解對數似然的方法,大都可以歸在凸二進制的下面。

A Lagrangian perspective on latent variable modelling

對潛變量模組化的拉格朗日觀點

最後這篇論文展示了驚人的技術實力,并且告訴我們,數學深度學習的軍備競賽仍然十分活躍!這篇論文結合了複雜的分析,随機矩陣理論,自由機率和graph morphisms,得出了對于神經網絡損失函數的Hessian特征值的一個精确的定律,而圖(graph)的形狀隻在經驗上是已知的,這一點在Sagun等人的論文中有論述。必讀。

通過RMT看神經網絡損失曲面幾何

Geometry of NN loss surfaces via RMT

深度學習非線性RMT

Nonlinear RMT for deep learning

原文釋出時間為:2017-12-18

本文作者:Kloud Strife

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀