普林斯頓大學教授：用理論的力量橫掃深度學習（77PPT）

【新智元導讀】目前深度學習的應用較為廣泛，尤其是各種開源庫的使用，導緻很多從業人員隻注重應用的開發，卻往往忽略了對理論的深究與了解。普林斯頓大學教授Sanjeev Arora近期公開的77頁PPT，言簡意赅、深入淺出的介紹了深度學習的理論——用理論的力量橫掃深度學習！（文末附PPT下載下傳位址）

深度學習曆史

學習任何一門知識都應該先從其曆史開始，把握了曆史，也就抓住了現在與未來。——BryanLJ

由圖可以簡單看出深度學習的發展曆史，在經曆了單調、不足與完善後，發展到了如今“動辄DL”的态勢。

定義與基本概念

神經網絡基本結構圖：

定義：

θ：深度網絡的參數

訓練集：(x1, y1) ，(x2, y2) ，…，(xn, yn)

損失函數 ζ(θ,x,y)：表示網絡的輸出與點x對應的y的比對度

目标： argminθEi[ζ(θ,x1, y1)]

梯度下降：

結合GPUs、大型資料集，優化概念已經塑造了深度學習：

反向傳播：用線性時間算法來計算梯度；

随機梯度下降：通過訓練集的小樣本評估；

梯度、解空間推動形成了殘差網絡（resnet）、WaveNet及Batch-Normalization等；

理論的目标：通過整理定理，得出新的見解和概念。

深度學習中的優化

困難：深度學習中大多數優化問題是非凸（non-convex）的，最壞的情況是NP難問題（NP-hard）。

維數災難：指在涉及到向量的計算的問題中，随着維數的增加，計算量呈指數倍增長的一種現象

深度學習“黑盒”分析：

原因：

1、無法确定解空間；

2、沒有明确的(xi, yi) 數學描述；

是以，求全局最優解是不可行的。

未知解空間中的控制梯度下降：

≠0→∃下降方向，但如果二階導數比較高，允許波動很大。為了確定下降，采用由平滑程度（可由高斯平滑 f來定義）決定的小步驟。

平滑：

要求：→滿足且與成正比。

非“黑盒”分析：

很多機器學習問題是深度為2的子案例，例如，輸入層和輸出層之間的一個隐含層。通常假設網絡的結構、資料分布，等等。比起GD/SGD，可以使用不同算法，例如張量分解、最小化交替以及凸優化等等。

過度參數化(over-parametrization)和泛化(generalization)理論

教科書中說：大型模型會導緻過拟合

很多人認為：SGD +正則化消除了網絡的“過剩容量”(excess capacity)，但是過剩容量依舊還是存在的，如下圖所示：

事實上，線上性模型中也存在同樣的問題。

泛化理論：

測試損失(Test Loss)-訓練損失(Training Loss)≤

其中，N是“有效能力”。

“真實容量”（true capacity）的非空估計被證明是難以捉摸的：

“真實參數”(true parameters)的非空邊界被證明是難以捉摸的：

深度網絡噪聲穩定性(可以視作深度網絡的邊緣概念):

噪聲注入：為一個層的輸出x添加高斯η 。

測量更高層次的變化，若變化是小的，那麼網絡就是噪聲穩定的。

VGG19的噪聲穩定性：

當高斯粒子經過更高層時的衰減過程

與泛化相關定性實驗：

墊層（layer cushion）在正常資料上的訓練要比在損壞資料上的訓練高得多

在正常資料訓練過程中的進化

“深度”的作用

深度的作用是什麼？

理想的結果是：當遇到自然學習問題時，不能用深度d來完成，但可以用深度d+1來完成。但是目前，由于理論依據不足，缺乏“自然”學習問題的數學形式化，還無法達到理想的結果。

深度的增加對深度學習是有益還是有害的？

支援：會出現更好的表現(正如上面實驗結果所示)；

反對：使優化更加困難(梯度消失(vanishing gradient)、梯度爆炸(exploding gradient)，除非像殘差網絡這樣的特殊架構)。

生成模型與生成對抗網絡(GAN)理論

無監督學習：“流行假設”(Mainfold Assumption)：

學習機率密度p(X|Z)的典型模型

其中，X是圖像，Z是流行上的編碼。目的是使用大量未标簽的資料集來學習圖像→編碼比對(code mapping)。

深度生成模型（deep generative model）

隐含假設： Dreal是由合理大小的深度網絡生成的。

生成對抗網絡（GANs）

動機：

(1)标準對數似然函數值(log-likelihood)目标傾向于輸出模糊圖像。

(2)利用深度學習的力量(即鑒别器網絡,discriminator net)來改進生成模型，而不是對數似然函數。

u：生成網絡可訓練參數

v：鑒别器網絡可訓練參數

鑒别器在訓練後，真實輸入為1，合成輸入為0。

生成器訓練來産生合成輸出，使得鑒别器輸出值較高。

GANs噩夢：模式崩潰(mode collapse)

因為鑒别器隻能從少數樣本中學習，是以它可能無法教會生成器産生足夠大的多樣性分布。

評估來自著名GANs的支援大小(support size)

CelaA：200k訓練圖像

DC-GAN：重複500個樣本，500x500 =250K

BiGAN和所有支援大小,1000x1000 =1M

(結果與CIFAR10相似)

深度學習—自由文本嵌入

無監督學習文字嵌入經典流程

常用方法：複發性神經網絡或LSTM等

手工業(cottage industry)的文本嵌入是線性的：

最簡單的：構成詞(constituent word)的詞嵌入求和

權重求和：通過适應段落資料集來學習權重

性能（相似性、蘊涵任務）：

較先進的句子嵌入方法與下遊分類(downstream classification)任務的比較：

附：普林斯頓大學教授：深度學習理論了解(77頁PPT)下載下傳位址：

https://www.dropbox.com/s/qonozmne0x4x2r3/deepsurveyICML18final.pptx

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”。

原文連結：

普林斯頓大學教授：用理論的力量橫掃深度學習（77PPT）

普林斯頓大學教授：用理論的力量橫掃深度學習（77PPT）

繼續閱讀

如果你想要學習深度學習，但是不知道從何入手，那麼《每天五分鐘深度學習》專欄一定是你不容錯過的學習資源。這個專欄包含了神經

tensorflow學習——keras進階API——序列模型Sequential

SVD原理和案例(奇異值分解)

連續兩年入圍全球Gartner ABI魔力象限，Quick BI在商業智能領域究竟有何魔力？1、互動式的分析和可視化2、建構資料故事3、釘釘內建4、增強分析Quick BI

技術解密｜阿裡雲多媒體 AI 團隊是憑借什麼拿下 CVPR2021 5冠1亞的？頂級挑戰賽戰績顯赫四大挑戰的關鍵技術探索基于視訊了解技術打造多媒體 AI 雲産品

算法專家解讀 | 開放搜尋教育搜題能力和實踐

Keras使用分批疊代（fit_generate）的方式訓練資料

圖像分割UNet系列------UNet3+（UNet3plus）詳解

圖像分割UNet系列------UNet詳解

特征：什麼是特征和特征選擇？

Pytorch(二) Tensor Tensor的建立Tensor是什麼Tensor的建立

2023了，學習深度學習架構哪個比較好？

VGGNet------超經典神經網絡結構與PyTorch實作

tensorflow學習——（imdb資料集）文本分類first_2.py

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

K-近鄰算法以及圖像分類應用