Yann LeCun連發三彈：人人都懂的深度學習基本原理（附視訊）

一名 ai 專家值多少錢？

“基于我個人經驗，一名計算機領域的 ai 專家對于企業的價值，至少為 500-1000 萬美元。為了争奪這些少數的人才，正在開展競标大戰。”

這是卡耐基梅隆大學計算機科學院院長 andrew moore 教授在 11 月 30 日美國參議院聽證會上，所說的話。

這場聽證會名為“ai 破曉”（the dawn of artificial intelligence），由參議員泰德·科魯茲主持，主題是探讨人工智能目前的形勢，對政策的影響及其對商業形态的改變。共有 5 位 ai 專家出席，分别是：

eric horvitz（微軟研究實驗室總經理，人工智能夥伴關系委員會臨時共同主席） andrew moore（卡耐基梅隆大學計算機科學院院長） andrew futreal（德州大學安德森癌症中心基因醫學教授） greg brockman（openai cto及其聯合創始人） steve chien（加州理工學院、nasa 噴氣推進實驗室進階研究科學家）

在 moore 教授看來，美國政府應該從高中階段開始為人工智能産業積蓄研究人員了，而這個人才儲備需求為 100 萬名高中生。這并不是 moore 教授一個人的觀點，吳恩達也表示贊同。

無獨有偶，僅隔一天，facebook 的部落格上釋出了一條新消息，放出大神 yann lecun 親自講解 ai 知識的三彈視訊。然而如果 ai 領域的專業讀者，稍微點開視訊一看，便知道這好像是一個高中老師在講科普課的風格。

三彈視訊湊成一個系列，風格十分活潑，yann lecun 的講解裡穿插動畫，并沒有太多技術性的内容。lecun 在視訊裡就明确表示，這次主要是給大衆普及關于深度學習的基本原理，希望可以鼓勵年輕人、高中生對該領域有更多了解，激發他們來探索這一領域的興趣。

是以這樣看來，無論是美國的學術界、政府還是産業界，都普遍有一種要把 ai 的種子廣泛播種到下一代的氛圍。

雖然是科普性的視訊，但大神的思路可見一斑。就像 moore 教授所說的，真正的 ai 專家隻是非常少的一波群體，其實如今的 ai 從業者仍舊處在一個“學習”階段。

那麼，到底 yann lecun 的三彈視訊裡講了什麼内容呢？

很多人，對于智能機器非常着迷，而我們的實作方法其實非常簡單。現在我跟大家解釋一下它當中到底是如何工作的。

其實大部分人已經在日常生活中使用 ai 系統了，隻不過他們都不知道而已，這裡面的應用包括自動駕駛、購買建議、遊戲等。

我們最常用的機器訓練模型，就是監督學習（supervised learning）。

舉一個典型的例子，如果你想建造一個識别圖像的機器，讓它識别圖像裡的狗和汽車。那麼你就需要給這個機器看幾百萬張含有狗和汽車的圖檔，并告訴機器裡面是否有狗或汽車，這就是一個“訓練”的過程。

在訓練之前，這個機器隻是産生随機的答案，當你給它顯示一張汽車或狗的圖檔時，你都不知道它會怎麼回答。如果它答對了，可能隻是運氣好罷了；如它答錯了，這時候得人為糾正一下（調參數）。

是以其中的一個關鍵就是，首先就是建造一個機器系統，然後就是調整内部參數或者結構，這樣下一次你再展示圖檔的時候，系統就會答出正确答案了。

這就所謂的“學習型算法”，其關鍵就是在于“調整參數”。幾百萬張圖檔這樣訓練下來，不斷地調整參數，最終機器會弄清楚“汽車”和“狗”之間的差別。當一張全新的照片給機器看時，它這時多半會給出正确答案。

我們把這個過程稱為“泛化能力”（generalization ability），指的是，機器能夠識别出跟訓練素材相似的，但從未見過的東西（the ability to recognize things that are similar to what the machine has been trained on but has never seen）。

計算機往往依照一串指令來運作，這一串指令就叫做“算法”（algorithm）。清洗盤子，也是要遵循“算法”的：先從一摞盤子裡選出一個放入水池中，然後擦拭清洗，然後烘幹，最後放置在架子上。這個過程不斷重複，就是一種很簡單的“算法”。

那麼我們如何為圖像識别寫一個“算法”呢？比如，如何差別圖像裡的汽車和狗？

計算機通常采用的方法，是用數字來表示圖檔，每一個數字代表特定區域像素的亮度。汽車的像素數組和狗的像素數組如圖，這樣就可以寫一段代碼來差別汽車和狗。

很多年來我們做的事情，就是建立大量的圖檔庫，将已識别出的圖像和等待識别的圖像進行比較，如果比對上時，計算機就可以判定圖檔裡面到底是汽車還是狗。

但問題是，這個方法所需要的模闆數量太巨大了，就汽車和狗而言，需要所有可能的位置、顔色、姿态的狗和汽車，這是非常不實際的。

但機器學習不一樣，我們并不對機器進行程式設計，而是用圖檔對其進行訓練。我們來舉個最簡單的例子，讓機器區分兩個字母。我們看到下圖裡，分别是字母 d 和字母 c（黑色塊構成字母輪廓）。

每張圖檔包含 9（3*3）個像素，我們分别給像素指派，黑色=1，白色=0，進而得到兩張字母圖檔的像素矩陣。

接着，我們隻讓系統做一件很簡單的事情：計算出像素權重（weights）之和。

具體而言，我們需要兩個部分：像素值矩陣和權重模闆，讓這二者相乘得出結果。我們假定，如果結果>0，即判定為字母 c，如結果<0，即判定為字母d。

像素值矩陣很好設定，接下來就是得出一個有效的區分二者的權重模闆，這是通過人工調節得到的。

當看到字母 c 時，人工告訴機器把 c 的權值調大。于是學習系統把字母 c 黑色像素對應的模闆的權值增加為 1，白色像素對應的部分保持為 0。

同時将字母 d 的權值調小。

最終得到的模闆權值中，正數（1）位置獨屬于字母c，負數（-1）位置獨屬于字母d。這就是一個很完美的将字母 c 和字母 d 區分的模闆。

現在我們重新給系統一個字母c 的圖檔，計算機将新圖與終極模闆相乘，得到的 9個像素裡的值，這些值相加得到的值=2。這時，2>0，是以計算機判斷其為字母 c。

同樣，如果新圖是字母d，那麼所得結果為-1，-1<0，是以計算機判斷其為字母d。

現實中的分類問題要比差別字母 c 和字母 d 更費時、更複雜，而對模闆的設定也更具有挑戰，但是模闆法是一種非常基礎的原理。

在深度學習領域，我們使用一種特殊的方法：卷積神經網絡(convolutional neural network, cnn) 。有趣的是，這種網絡結構，是受到哺乳動物的視覺皮層啟發。

一個物體可以有多個角度的照片，比如我要給這個剪刀拍照，各個角度得到的圖檔是不一樣的。

如果我要讓計算機識别出這個剪刀，那麼就要以這個洞為主要特征，無論剪刀出現在照片的哪個位置，系統都能依據這個“洞”找出這個剪刀。

這個“洞”隻是這個剪刀的特征之一，我們可以對一個物體提取多個特征，讓系統來鎖定它。cnn 的特殊之處在于，我們并不需要人工來提取這些“特征”。cnn 的第一層，有幾百個探測器（detectors），它們自己學習并提取出幾百個“特征”。

這種自我學習的方法，應用在很多領域，包括圖像識别、自動駕駛、語音識别、翻譯等。

yann lecun 表示：

這個視訊不是課程，隻是讓普通人能夠真正了解“深度學習”技術背後的基本原理，這或許能夠鼓勵年輕人、高中生對此有更豐富的了解，讓他們對此産生興趣，之後或許能在網上聽一些課程，甚至日後在大學裡學習相關課程。我認為，讓公衆對深度學習技術有所了解，是很重要的。

是以，facebook 已經要在培養青少年人才方面發力了，雷鋒網大膽推測，莫非明年就要出現深度學習技術的高中生競賽了？

從政界、學術界到産業界，美國都在向着“ai 破曉”大膽邁步，中國其實不乏在 ai 領域的專家大牛，是否也有一天，向 yann lecun 一樣親切地向大衆普及 ai 知識，推動基礎教育的發展呢？

ps： yann lecun三彈視訊。

Yann LeCun連發三彈：人人都懂的深度學習基本原理（附視訊）

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希