院士陸汝鈴：六問機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

陸汝鈴，中國科學院數學與系統科學研究院數學研究所研究員、複旦大學教授。在知識工程和基于知識的軟體工程方面作了系統的、創造性的工作，是中國該領域研究的開拓者之一。1999年當選為中國科學院院士。

在人工智能界有一種說法，認為機器學習是人工智能領域中最能展現智能的一個分支。從曆史來看，機器學習似乎也是人工智能中發展最快的分支之一。

在二十世紀八十年代的時候，符号學習可能還是機器學習的主流，而自從二十世紀九十年代以來，就一直是統計機器學習的天下了。不知道是否可以這樣認為：從主流為符号機器學習發展到主流為統計機器學習，反映了機器學習從純粹的理論研究和模型研究發展到以解決現實生活中實際問題為目的的應用研究，這是科學研究的一種進步。

平時由于機器學習界的朋友接觸多了，經常獲得一些道聽途說的資訊以及專家們對機器學習的現狀及其發展前途的評論。在此過程中，難免會産生一些自己的疑問。借此機會把它寫下來放在這裡，算是一種“外行求教機器學習”。

一問：符号學習該何去何從

問題一：在人工智能發展早期，機器學習的技術内涵幾乎全部是符号學習。可是從二十世紀九十年代開始，統計機器學習猶如一匹黑馬橫空出世，迅速壓倒并取代了符号學習的地位。人們可能會問：在滿目的統計學習期刊和會議文章面前，符号學習是否被徹底忽略？它還能成為機器學習的研究對象嗎？它是否将繼續在統計學習的陰影裡生活并苟延殘喘？

對這個問題有三種可能的回答：一是告訴符号學習：“你就是該退出曆史舞台，認命吧！”二是告訴統計學習：“你的一言堂應該關門了！”單純的統計學習已經走到了盡頭，再想往前走就要把統計學習和符号學習結合起來。三是事物發展總會有“三十年河東，三十年河西”的現象，符号學習還有“翻身”的日子。

第一種觀念我沒有聽人明說過，但是我想恐怕有可能已經被許多人預設了。第二種觀點我曾聽王珏教授多次說過。他并不認為統計學習會衰退，而隻是認為機器學習已經到了一個轉折點，從今往後，統計學習應該和知識的利用相結合，這是一種“螺旋式上升，進入更進階的形式”，否則，統計學習可能會停留于現狀止步不前。王珏教授還認為：進入轉折點的表示是koller等的《機率圖模型》一書的出版。至于第三種觀點，恰好我收到老朋友，美國人工智能資深學者、俄亥俄大學chandrasekaran教授的來信，他正好談起符号智能被統計智能“打壓”的現象，并且正好表達了河東河西的觀點。全文如下：“最近幾年，人工智能在很大程度上集中于統計學和大資料。我同意由于計算能力的大幅提高，這些技術曾經取得過某些令人印象深刻的成果。但是我們完全有理由相信，雖然這些技術還會繼續改進、提高，總有一天這個領域（指ai）會對它們說再見，并轉向更加基本的認知科學研究。盡管鐘擺的擺回還需要一段時間，我相信定有必要把統計技術和對認知結構的深刻了解結合起來。”

看來chandrasekaran教授也并不認為若幹年後ai真會回到河西，他的意見和王珏教授的意見基本一緻，但不僅限于機器學習，而是涉及整個人工智能領域。隻是王珏教授強調知識，而chandrasekaran教授強調更加基本的“認知”。

二問：“獨立同分布”條件對于機器學習來講必需嗎

問題二：王珏教授認為統計學習不會“一帆風順”的判斷依據是：統計機器學習算法都是基于樣本資料獨立同分布的假設。但是自然界現象千變萬化，王珏教授認為“哪有那麼多獨立同分布？”這就引來了下一個問題：“獨立同分布”條件對于機器學習來講真的是必需的嗎？獨立同分布的不存在一定是一個不可逾越的障礙嗎？

無獨立同分布條件下的機器學習也許隻是一個難題，而不是不可解決的問題。我有一個“胡思亂想”。認為前些時候出現的“遷移學習”也許會對這個問題的解決帶來一線曙光。盡管現在的遷移學習還要求遷移雙方具備“獨立同分布”條件，但是不能分布之間的遷移學習，同分布和異分布之前的遷移學習也許遲早會出現？

三問：深度學習代表了機器學習的新方向嗎？

問題三：近年來出現了一些新的動向，例如“深度學習”、“無終止學習”等等，社會上給予了特别關注，尤其是深度學習。但它們真的代表了機器學習的新的方向嗎？包括周志華教授在内的一些學者認為：深度學習掀起的熱潮也許大過它本身真正的貢獻，在理論和技術上并沒有太多的創新，隻不過是由于硬體技術的革命，計算機速度大大提高了，使得人們有可能采用原來複雜度很高的算法，進而得到比過去更精細的結果。當然這對于推動機器學習應用于實踐有很大意義。但我們不禁要鬥膽問一句：深度學習是否又要取代統計學習了？

事實上，确有專家已經感受到來自深度學習的壓力，指出統計學習正在被深度學習所打壓，真如我們早就看到的符号學習被統計學習所打壓。不過我覺得這種打壓還遠沒有強大到像統計學習打壓符号學習的程度。這一是因為深度學習的“理論創新”還不明顯；二是因為目前的深度學習主要适合于神經網絡，在各種機器學習的方法百花盛開的今天，它的應用範圍還有限，還不能直接說是連接配接主義方法的回歸；三是因為統計學習仍然在機器學習中被有效的普遍采用，“得到多助”，想抛棄它不容易。

四問：隻有統計方法适合于在機器學習方面應用嗎？

問題四：機器學習研究出現以來，我們看到的主要是從符号方法到統計方法的演變，用到數學主要是機率統計。但是，數學之大，就像大海，難道隻有統計方法适合于在機器學習方面應用嗎？

當然，我們也看到看了一些其他數學分支在機器學習上的應用的好例子，例如微分幾何在流形學習上的應用，微分方程在歸納學習上的應用。但如果和統計方法相比，它們都隻能算是配角。還有的數學分支如代數可能應用得更廣，但是在機器學習中代數一般是作為基礎工具來使用，例如矩陣理論和特征值理論。又如微分方程求解最終往往歸結為代數問題求解。它們可以算是幕後英雄：“出頭露面的是機率和統計，埋頭苦幹的是代數和邏輯”。

是否可以想想以數學方法為主角，以統計方法為配角的機器學習理論呢？在這方面，流形學習已經“有點意思”了，而彭實戈院士的倒排随機微分方程理論之預測金融走勢，也許是用高深數學推動新的機器學習模式的更好例子。但是從宏觀角度看，數學理論的介入程度還遠遠不夠。這裡指的主要是深刻的、現代的數學理論，我們期待着有更多數學家參與，開辟機器學習的新模式、新理論、新方向。

五問：符号機器學習時代和統計機器學習時代的鴻溝在哪裡？

問題五：上一個問題的延續，符号機器學習時代主要以離散方法處理問題，統計學習時代主要以連續方法處理問題。這兩種方法之間應該沒有一條鴻溝。

流形學習中李群、李代數方法的引入給我們以很好的啟示。從微分流形到李群，再從李群到李代數，就是一個溝通連續和離散的過程。然後，現有的方法在數學上并不完美。浏覽流形學習的文獻可知，許多理論直接把任意資料集看成微分流形，進而就認定測地線的存在并讨論起降維來了。這樣的例子也許不是個别的，足可說明數學家介入機器學習研究之必要。

六問：大資料給機器學習帶來了本質影響嗎？

問題六：大資料時代的出現，有沒有給機器學習帶來本質性的影響？

理論上講，似乎“大資料”給統計機器學習提供了更多的機遇，因為海量的資料更加需要統計、抽樣的方法。業界人士估計，大資料的出現将使人工智能的作用更加突出。有人把大資料處理分成三個階段：收集、分析和預測。收集和分析的工作相對來說已經做得相當好了，現在關注的焦點是要有科學的預測，機器學習技術在這裡不可或缺。這一點大概毋庸置疑。然而，同樣是使用統計、抽樣方法，同樣是收集、分析和預測，大資料時代使用這類方法和以前使用這類方法有什麼本質的不同嗎？量變到質變是辯證法的一個普遍規律。

那麼，從前大資料時代到大資料時代，數理統計方法有沒有發生本質的變化？反映到它們在機器學習上的應用有無本質變化？大資料時代正在呼喚什麼樣的機器學習方法的産生？哪些機器學習方法又是由于大資料研究的驅動而産生的呢？

原文釋出時間為：2016-08-23

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

院士陸汝鈴：六問機器學習◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

繼續閱讀

疾病研究：重症肌無力

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark