天天看點

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

【新智元導讀】目前深度學習的應用較為廣泛,尤其是各種開源庫的使用,導緻很多從業人員隻注重應用的開發,卻往往忽略了對理論的深究與了解。普林斯頓大學教授Sanjeev Arora近期公開的77頁PPT,言簡意赅、深入淺出的介紹了深度學習的理論——用理論的力量橫掃深度學習!(文末附PPT下載下傳位址)

深度學習曆史

學習任何一門知識都應該先從其曆史開始,把握了曆史,也就抓住了現在與未來 。——BryanLJ

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

由圖可以簡單看出深度學習的發展曆史,在經曆了單調、不足與完善後,發展到了如今“動辄DL”的态勢。

定義與基本概念

神經網絡基本結構圖:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

定義:

θ:深度網絡的參數

訓練集:(x1, y1) ,(x2, y2) ,…,(xn, yn)

損失函數 ζ(θ,x,y):表示網絡的輸出與點x對應的y的比對度

目标: argminθEi[ζ(θ,x1, y1)]

梯度下降:

結合GPUs、大型資料集,優化概念已經塑造了深度學習:

反向傳播:用線性時間算法來計算梯度;

随機梯度下降:通過訓練集的小樣本評估;

梯度、解空間推動形成了殘差網絡(resnet)、WaveNet及Batch-Normalization等;

理論的目标:通過整理定理,得出新的見解和概念。

深度學習中的優化

困難:深度學習中大多數優化問題是非凸(non-convex)的,最壞的情況是NP難問題(NP-hard)。

維數災難:指在涉及到向量的計算的問題中,随着維數的增加,計算量呈指數倍增長的一種現象

深度學習“黑盒”分析:

原因:

1、無法确定解空間;

2、沒有明确的(xi, yi) 數學描述;

是以,求全局最優解是不可行的。

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

未知解空間中的控制梯度下降:

≠0→∃下降方向,但如果二階導數比較高,允許波動很大。為了確定下降,采用由平滑程度(可由高斯平滑 f來定義)決定的小步驟。

平滑:

要求:→滿足且與成正比。

非“黑盒”分析:

很多機器學習問題是深度為2的子案例,例如,輸入層和輸出層之間的一個隐含層。通常假設網絡的結構、資料分布,等等。比起GD/SGD,可以使用不同算法,例如張量分解、最小化交替以及凸優化等等。

過度參數化(over-parametrization)和泛化(generalization)理論

教科書中說:大型模型會導緻過拟合

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

很多人認為:SGD +正則化消除了網絡的“過剩容量”(excess capacity),但是過剩容量依舊還是存在的,如下圖所示:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

事實上,線上性模型中也存在同樣的問題。

泛化理論:

測試損失(Test Loss)-訓練損失(Training Loss)≤

其中,N是“有效能力”。

“真實容量”(true capacity)的非空估計被證明是難以捉摸的:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

“真實參數”(true parameters)的非空邊界被證明是難以捉摸的:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

深度網絡噪聲穩定性(可以視作深度網絡的邊緣概念):

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

噪聲注入:為一個層的輸出x添加高斯η 。

測量更高層次的變化,若變化是小的,那麼網絡就是噪聲穩定的。

VGG19的噪聲穩定性:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

當高斯粒子經過更高層時的衰減過程

與泛化相關定性實驗:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

墊層(layer cushion)在正常資料上的訓練要比在損壞資料上的訓練高得多

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

在正常資料訓練過程中的進化

“深度”的作用

深度的作用是什麼?

理想的結果是:當遇到自然學習問題時,不能用深度d來完成,但可以用深度d+1來完成。但是目前,由于理論依據不足,缺乏“自然”學習問題的數學形式化,還無法達到理想的結果。

深度的增加對深度學習是有益還是有害的?

支援:會出現更好的表現(正如上面實驗結果所示);

反對:使優化更加困難(梯度消失(vanishing gradient)、梯度爆炸(exploding gradient),除非像殘差網絡這樣的特殊架構)。

生成模型與生成對抗網絡(GAN)理論

無監督學習:“流行假設”(Mainfold Assumption):

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

學習機率密度p(X|Z)的典型模型

其中,X是圖像,Z是流行上的編碼。目的是使用大量未标簽的資料集來學習圖像→編碼比對(code mapping)。

深度生成模型(deep generative model)

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

隐含假設: Dreal是由合理大小的深度網絡生成的。

生成對抗網絡(GANs)

動機:

(1)标準對數似然函數值(log-likelihood)目标傾向于輸出模糊圖像。

(2)利用深度學習的力量(即鑒别器網絡,discriminator net)來改進生成模型,而不是對數似然函數。

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

u:生成網絡可訓練參數

v:鑒别器網絡可訓練參數

鑒别器在訓練後,真實輸入為1,合成輸入為0。

生成器訓練來産生合成輸出,使得鑒别器輸出值較高。

GANs噩夢:模式崩潰(mode collapse)

因為鑒别器隻能從少數樣本中學習,是以它可能無法教會生成器産生足夠大的多樣性分布。

評估來自著名GANs的支援大小(support size)

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

CelaA:200k訓練圖像

DC-GAN:重複500個樣本,500x500 =250K

BiGAN和所有支援大小,1000x1000 =1M

(結果與CIFAR10相似)

深度學習—自由文本嵌入

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

無監督學習文字嵌入經典流程

常用方法:複發性神經網絡或LSTM等

手工業(cottage industry)的文本嵌入是線性的:

最簡單的:構成詞(constituent word)的詞嵌入求和

權重求和:通過适應段落資料集來學習權重

性能(相似性、蘊涵任務):

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

較先進的句子嵌入方法與下遊分類(downstream classification)任務的比較:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

附:普林斯頓大學教授:深度學習理論了解(77頁PPT)下載下傳位址:

https://www.dropbox.com/s/qonozmne0x4x2r3/deepsurveyICML18final.pptx

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。

原文連結:

普林斯頓大學教授:用理論的力量橫掃深度學習(77PPT)

繼續閱讀