吳恩達：大資料終将幫助機器擁有自主智慧

福布斯網站對加盟百度人工智能實驗室的吳恩達進行了專訪。文章指出，招納吳恩達，展現了百度希望通過研發世界一流技術，将自身打造為世界前列的創新型公司的願景。在以下訪談中，吳恩達透露了他将如何幫助百度實作這一願景。

以下為文章主要内容：

今年5月百度在矽谷創立了人工智能實驗室，并将吳恩達納入麾下，任命為百度首席科學家。作為斯坦福大學計算機科學教授，吳恩達曾是google brain項目的負責人，并聯合建立了線上教育初創企業coursera。讓百度成為國際化企業的發展規劃中，吳恩達不失為核心人物。

問：你是如何對人工智能産生興趣的？

答：過去我隻是認為，讓機器具備人工智能是再酷不過的事。高中暑假期間，我在新加坡國立大學做人工智能方面的實習生，任務是編寫神經網絡。它是深度學習算法的雛形。我覺得編寫出能夠自我學習并做出預測的軟體是很有意思的。

如果我們能夠讓電腦更加智能，并更好地了解這個世界和環境，我們可以讓許多人的生活變得更美好。正如同工業革命把我們從體力勞作中解放，我認為人工智能也存在巨大潛能，未來能夠讓我們擺脫大量單調重複的腦力勞動。

問：曾經有段時間，由于進展不順，你對人工智能喪失了興趣，是嗎？

答：人工智能的遠大前景是，機器總有一天将演變成像人類那樣，能夠完成一些具有自主智慧的任務。我剛進入斯坦福大學時，并不認為這種前景是可行的，是以當時有點困惑。人類的智慧或許是依賴某種學習算法，這是有據可依的。是以，我認為或許我們可以模仿人類大腦，建立更像人腦的智能，進而迅速取得進展。這些理念存在已久，但人工智能專家和人腦啟發軟體商numenta的聯合創始人傑夫•霍金斯（jeff hawkins）為普及這些理念做了不少貢獻。

問：真正實作這些設想，你目前的進展如何？

答：我們與真正的成功距離遙遠。我們面臨很多問題。其中之一就是達不到應有的規模。目前我們對圖像的處理規模遠遠不足。其二，我很肯定我們還未摸索出正确的算法。

問：但為什麼近幾年人們又重新燃起了對人工智能的興趣和關注？

答：大約在四年前，2010年底，我們已經摸索出了許多算法，并意識到要推動人工智能技術更上一層樓的最大瓶頸是規模。如果我們使用現在的電腦運作20世紀80年代編寫的軟體，效果比使用那個年代的電腦要好很多。

是以2010年年底，我在矽谷尋求可能擴大算法規模的途徑。谷歌擁有很多電腦，是以我在谷歌啟動了一個項目，利用這些算法打造了規模超乎以往的神經網絡。現在回想起來，這個項目取得成功的關鍵在于研發團隊所接受的指令很單純：建立盡可能大的神經網絡。

問：你是指2012年google brain項目，當時該項目的神經網絡成功地識别出貓的圖像。

答：對。谷歌的神經網絡竟然能夠自己發現貓的定義，非常了不起。從來沒有人告訴它什麼是貓。那是機器學習的一個裡程碑。這對許多公司，如facebook、百度等等，都具有啟發作用。

問：對這些公司而言，這一項目引人注目之處展現在哪裡？

答：大多數具有經濟效益的應用，到目前為止僅僅是從經過标記的資料進行學習。以語音識别為例。百度和谷歌已提高了語音的識别效果，他們依據的理論基礎是，深度學習算法可以接納海量的、轉錄為文本的語音資料。這就是經過标記的資料。由此我們可以訓練神經網絡進行預測。

從長遠來看，還有種不同類型的深度學習，我對此感到很興奮。它被稱作無監督學習（unsupervised learning），是指從未經标記的資料展開學習，這更接近人腦的學習方式。google brain項目對貓的識别就是這方面的例子。我們曾經讓神經網絡連續一星期觀看youtube的視訊，并且不作任何提示。一周後，我們做了測試，看看它學會了什麼。結果它學會了識别人臉、貓臉和其他一些事物。從某種程度上，這是人工智能的一項重大進展。目前，監督學習是促使深度學習技術産生經濟效應的重要功臣。而無監督學習與它不是同一概念。

問：你為什麼看好無監督學習？

答：原因之一是，無監督學習最接近動物和嬰兒的學習方式。如果想讓目前的神經網絡學會識别汽車，我們的做法是尋找5萬張汽車圖檔，并把他們标記成汽車，再将這些标記資料輸入到監督學習算法中。而孩子如何學會認識汽車呢？沒有哪對父母會弄來5萬輛汽車的圖檔。大多數神經科學家相信，大多數動物和孩子的學習僅僅是通過融入世界、親身體驗世界完成的。如果我們能在這方面取得進步，就能讓神經網絡系統更好地了解圖像。

第二個原因在于，對于某些依賴監督學習的應用，我們能夠提供的資料有限，進而限制了它的發展潛力。例如，醫療成像方面，全國進行的x射線掃描次數畢竟有限，是以能夠得到的圖像資料也受到限制。

問：現在就職于百度實驗室，你關注的焦點是不是無監督學習？

答：它是初期的重要事項之一。無監督學習面臨更多困難，前人的成功經驗更少，而且不知道正确算法是什麼。

問：如今存在一種趨勢，即人們傾向于研究移動裝置的計算和通信。此外，感官資料也在呈現爆發之勢。這兩個因素是否引發了人們對人工智能的熱潮？

答：還有其他因素。大資料的發展源于兩個趨勢。第一，社會數字化的日益深入，衍生出電腦能夠處理的電子資料。第二，存儲和計算成本不斷降低，最終使存儲和處理所有這些資料的費用降至可承擔的範圍内。如果社會數字化持續發展，存儲和計算成本繼續下滑，大資料最終會發展成為一種潮流。

問：對于百度人工智能實驗室，你短期或中期的具體規劃是什麼？

答：百度擁有三個實驗室，兩個北京的實驗室已初具規模，而位于矽谷的人工智能實驗室大部分是空蕩蕩的，才剛剛起步。我們招募新成員的速度很快，一周就招進一名成員，到今天為止，我們已經招了6個人。目前為止，他們都來自矽谷，而且都接受了我們發出的offer。我們還同矽谷以外的少數人接觸，這需要更多的時間。我們還有很多工作要做。

問：對矽谷人工智能實驗室，你心中是否已畫好藍圖，例如，是否會效仿貝爾實驗室、施樂帕克研究中心、谷歌或微軟？

答：此前我曾與這些實驗室的主管交談過。今天早上我會見了sri實驗室的比爾•馬克，之前也與許多相關領域的人交談，如施樂帕克研究中心的前主管。我曾在google x實驗室工作。很久以前，大學期間和博士學位攻讀早期的每年夏天，我都在at＆t貝爾實驗室中實習。不斷向他人學習、态度謙遜是很重要的。

問：一個成功的實驗室最重要的因素是什麼？

答：團隊文化。

問：從一開始就要正确定位，這點很重要。如果一開始就走偏方向，要糾正是很困難的。你是怎麼看？

答：初期過後，即使要做出些許改變也是很困難的。最關鍵在于，任務是什麼。我所任職過的所有機構都以任務為主要動力。coursera的使命是讓每一個人享受教育，是以我們決定要實作這一任務的最佳途徑是建立coursera這家公司。現在，我面臨的任務是通過人工智能技術改變世界。而我有種強烈的感覺，要實作這一點，最有效的方式是加盟百度。

問：為什麼選擇百度？

答：百度已經擁有非常先進的深度學習技術。它的深度學習實驗室負責人餘凱是深度學習方面的專家。深度學習對百度的核心産品，如網頁搜尋、廣告、語音識别、光學字元識别等等，具有重要意義。李彥宏對人工智能抱有很大的熱情。

我加入百度有三個原因。

其一，人工智能是一項資本密集型技術。要取得進展，則需要資料和計算機資源的支援。資料比計算機資源更難獲得，但兩者缺一不可。

第二是靈活性。作為一個大企業，百度擁有着令人難以置信的靈活性。舉個例子，餘凱想要建立一個圖形處理器叢集，在做完決定後，很快就付諸實踐了。

第三就是員工的積極性。百度的工程師工作非常賣力。

問：在百度你打算如何展開未來的工作？除了網際網路應用以外，是否會投入對機器人、無人駕駛車等類似産品的研究？

答：最初，我們隻打算把焦點放在技術上。通常我傾向于先以産品為立足點，再考慮技術。縱觀矽谷，大多數失敗不是因為解決不了困難的技術問題，而是因為最終發現，費心費力解決的問題其實根本無人問津。

深度學習這項技術很不同，它在百度的許多産品中都已得到應用。人工智能對許多事物都具有重大意義。是以我不必擔心我們的研究内容對目前或未來的産品是否具有實用性。

問：你将如何利用百度的技術基礎設施？是否需要建造一些新的設施？

答：我在摸索如何利用目前的基礎設施和開發工具使深度學習團隊能夠高效地産生新想法并進行測試及學習。例如，許多語音識别實驗的實施大約需要一周。如果一周後才能獲得結果回報，就很難高效地進行學習。如果将時間減半，就能使團隊的效率翻一番。

問：未來可能會研發出什麼樣的新技術？

答：我希望能夠使百度目前的深度學習應用得到持續改進，如搜尋、廣告、語言翻譯、光學字元識别和語音識别。

技術的進步分為兩種。一種是漸進的，這種進步會受到人們的歡迎。例如，如果我們能夠把網頁搜尋的性能提升5%，許多使用者都将從中受益。

問：另一種呢？

答：另一種技術的進步是突破性的，它将推進前所未有的新應用的誕生。例如，如果語音識别技術進展到能夠無障礙識别人類語言的程度，那麼它将創造一種全新的手機互動模式。試想一下，如果我們在開車，哪怕車内很吵，我們仍可以通過向手機輸入語音來向朋友發短信。這在現在根本無法實作。

如果我們能夠真正解決語音識别問題，我想圍繞語音界面對手機進行重新設計。或許未來移動裝置上的email應用隻需兩個按鈕：回複和删除。這隻是我的想法，不一定可行。但這說明了，一些核心技術的突破将使人們的生活産生巨大的變化。

本文來源于"中國人工智能學會",原文發表時間"2014-09-24"

吳恩達：大資料終将幫助機器擁有自主智慧

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希