中國電子學會雲計算專家委員會名譽主任委員、中國大資料專家委員會顧問、中國工程院院士李德毅
在5月21日的第六屆中國雲計算大會上,李院士的演講資訊量極大,縱觀科技發展幾十年的曆史,細數其中代表人物(居然其中還提到了歌星那英,why?)。演講到底有多精彩?看看李院士演講後,火爆的新書簽售現場就知道了,排隊購書等着李院士簽名的人足有50多米,組委會動用數名保安維持秩序,更令人驚奇的是簽售的書是《不确定性人工智能》,這麼高大上的書可不是每個人都能看懂的啊!
閑言少叙,請看演講實錄:
文字:基于csdn郭雪梅文字稿和現場錄音整理而成,未經演講人确認
圖檔:感謝大資料文摘讀者段劍弓的無私分享!
各位同仁,尤其是年輕的it工作者們,很高興在這裡跟大家分享我對雲計算和大資料的一些認識。我的報告題目是“大資料挖掘”。
自從大資料引入了人們的視線之後,人們普遍講的是三個字“大資料”。但是忽略了《自然》雜志的副标題——它講的是pb時代的科學。本質上大資料的挑戰是pb時代的科學的挑戰。在這麼一個大資料時代怎麼做資料挖掘呢?
人們用很多的v來形容大資料,其實大資料的主要來源有三個方面,
第一:是這個地球,自然界的大資料,這麼多的衛星繞着地球轉,我們看看每天要下載下傳多少資料量?
第二:生命大資料、生物大資料,尤其是每一個人體的大資料也是一個重要的來源。
第三:社交大資料:對于我們it工作者來說,我們更關心的是社交大資料,每天你拿着手機、拿着筆記本來回折騰了半天,這些資料對你起作用了嗎?
pb時代對科學的挑戰更是對包括資料挖掘在内的認知科學的挑戰。奧巴馬就職演說當中,每一個人後面都有大資料的支撐,我點到誰,你就能告訴我他的大資料嗎?一個人,一個社會的活動人非常了不起,他有他的身份、情感、職業、年齡、性格等等,假如現在給你一張全家福,你能不能從他們的人臉識别當中告訴我誰是兒媳婦、誰是女婿?
這麼多人臉下,怎麼把人臉識别清楚呢?現在我們北京市有80萬個攝像頭,每天照着我們大家,我們可以利用攝像頭做身份認證、年齡識别、情感計算、親緣發現、心理識别、地區識别、民族識别,都很有用處。這種流媒體主要的形态是非結構化的,特征之間的關聯關系、裝置算法的準确率等等,都嚴重的制約着大資料人臉挖掘的進度。
由技術推動的計算機發展
那麼怎麼辦?我們還是要回歸一下計算機所發展的曆史,1936年天才數學家圖靈提出來一個圖靈模型,後來有一個計算機,把圖靈模型轉化為實體計算機,有三大塊,一塊叫做cpu,作業系統,還有一大塊叫做記憶體和外存,還有一塊就是輸入和輸出。
在計算機發展的頭一個30年裡,我們感興趣最多的是cpu、是作業系統,是軟體、是中間件、是應用軟體。這時候代表資訊技術發展速度的可以用摩爾速度來表示,它告訴我們微電子發展是18個月可以翻一番的,是以我們側重于計算性能的提高,我們把這個時代叫做計算時代,計算,尤其是高性能計算機,人們花了很大的精力研究,它帶動了存儲,也帶動了輸入輸出,這個時間大概用了三四十年。計算領先、存儲互動也跟着發展。
在這樣一個計算領先當中,我們主要做的是結構化資料的挖掘,我們要提起一個偉大的學者,他的名字叫埃德加,他在1970年提出一個關系模型,用二維表形式表示實體與實體間的聯系。
三四十年來,各行各業的資料庫和資料倉庫技術,以及從資料庫發現知識的資料挖掘成為巨大的資訊産業。關于資料庫之父,美國工程院院士獲獎了1981年的圖靈獎,他這篇論文是1970年寫的,講的是共享資料銀行的關系模型。關系資料庫有嚴格的頂層設計,為構造良式關系,必須消除元組中不合适的依據依賴,通過第三範式、第四範式、甚至更多的範式分解資料表以階級資料備援、異常等問題。我們每一個it計算機大學生都學過這樣的技術,對這樣的關系運算,結果仍然是關系。
隻要資料在關系資料庫中,總可以通過sql語言,将結果輸出,這就是edgar的偉大之處。
關系代數是關系資料庫的形式化理論和限制,先有頂層設計和資料結構,後填入清洗後的資料。資料圍繞結構轉,資料圍繞程式轉。使用者無需關心資料的擷取,存儲、分析以及提取過程。不再關系資料結構的内容和形式,唯一希望得到的是符合查詢條件的結果。通過資料挖掘,可以從資料庫中發現分類知識、關聯知識,時序知識、異常知識等等。
随着資料庫産業的膨大,人們對資料庫已經不太滿足了,于是把databases說成是largedatabases…..
但是不管怎麼大,遇到了兩個不可回避的挑戰:第一是由于關系代數的形式化限制過于苛刻,無法表示現實資料怎麼辦?第二個挑戰,随着資料量的增大,關系代數運算性能急劇下降,如果是一個tb的關系資料庫,兩個表做一個join,要幾十個小時,人們忍受不了,這兩個挑戰就意味着心裡方法的存在。就在這個時候,我們的存儲技術得到了迅猛發展,大家知道,存儲、記憶體、外存、硬碟越來越普遍了,當上海俞正聲書記提出1+tb的時候,這個錢誰來買單?現在我們可能都有一兩個tb,一個tb400塊錢就買到了,是以人類進入了搜尋時代。搜尋因為存儲便宜了,存儲的速度大概每9個月翻一番,這在中國也好、全世界也好,誰能幹就多幹一點活,是以存儲帶動了技術的腳步,這種搜尋時代經過了20多年,于是我們進入了一個半結構化資料挖掘時代。
這個時代代表人物就是網際網路之父tim,請大家注意剛才關系代數的發明者是20後,網際網路之父是50後,他提出了超文本思想,開發了世界上第一個web伺服器和web客戶機,于是我們可以從一台伺服器上檢索另一台伺服器的内容,伺服器在軟體支援下可釋出包括文本、表格、圖檔、音視訊的碎片化超媒體資訊。
是以,用戶端伺服器結構和雲計算結構蓬勃産生,在這時候我們已經沒有了關于代數那樣嚴格的形式化限制,依靠的主要是規範、标準,所有媒體均以實體形式存在,甚至是軟體,實體通過超連結産生聯系。
形式化理論比關系代數寬松了許多,建立了靈活多樣的實體,這時候資料開始圍繞實體轉,實體圍繞連結轉。挖掘就是在雲計算環境下搜尋和個性化服務,沒有死闆的查詢方式,也不是唯一結果,允許帶有不确定性,重視搜尋的統計性質。各種各樣的關鍵字搜尋引擎,語音、圖檔、視訊搜尋引擎在網際網路上出現了繁榮的内容服務。随着這些服務的普及,又遇到了新的挑戰,千人一面的搜尋服務受到了質疑,如果同一個人問同一問題它不可改變,當一萬個人再問的時候,它可能有所改變,人們覺得這個還不好。
大資料時代技術的有效性要比科學的完整性更為重要
水不轉,雲在轉。這是我報告的第二條。
随着網際網路貸款6個月翻一番的速度,它比9個月翻一番、18個月翻一番要快,你的帶寬有能耐就多起點作用,于是人類進入了互動時代,互動帶動着計算和存儲。
水不轉,人在轉。移動網際網路時代的大資料挖掘主要是網絡化環境下的非結構化資料挖掘,這些資料形态反映的是帶毛的、鮮活的、碎片化了的、異構的、有情感的原生态資料。
這種非結構化資料有什麼特點呢?它常常是低價值、強噪聲、異構、備援的而且是冰冷的資料,有很多資料放在存儲器裡一輩子沒再用過。資料的形式化限制越來越寬松,越來越接近網際網路文化、視窗文化和社群文化,我們現在的青年人不要學什麼東西,隻要會玩手機,越玩越熟悉,因為他已經進入這個文化之中。
關注的對象也發生很大改變,挖掘關注的首先是小衆,隻有滿足小衆挖掘需求,才談得上滿足更多小衆組成的大衆的需求,是以一個重要思想,就是由下而上勝過由上而下的頂層設計,強調挖掘資料的真實性、及時性,要發現關聯、發現異常、發現趨勢,總之要發現價值,但是它未必注重因果、未必注重主次、未必注重時序,更未必發現普遍的知識。
移動網際網路時代的大資料挖掘過程當中,資料的簡約具有自适應性,不必具有固定特征或者層次。許多年來,我的課題組提出一個方法,叫認知實體學方法,用實體學場的方法類比形成資料場。
對128×128的象素組成的人臉,如果他們的資料場是等價的話,我們可以用28個特征點資料來等價這個流媒體資料。對另外一張人臉,它可以變成254個資料、59個資料,這是非常不同于結構化、半結構化的。
目前,深度學習也是一種資料自适應簡約,百度人工智能建設院的吳教授他們就開展了這方面的研究。
如果我們在百度上用深度學習搜尋一個人臉象素搜尋,這麼多人臉誰是誰?是他嗎?資料量急劇增加,各種媒體形态可随意碎片化,組織結構和挖掘程式要圍着資料轉,程式要碎片化,并可以随時虛拟重組,挖掘常常是人機互動環境下不同社群的發現以及社群中形成的群體智能,在非結構化資料挖掘中,會自然進行資料清洗和逐漸強形式化,自然形成半結構化資料和結構化資料,以提高資料使用效率。
是以我們用網絡化的大資料挖掘方法,首先要是在這個複雜的人人都連網的情況之下找到一個特定問題的社群,是以由社群發現成為大資料發展的首要問題,要研究社群成員,就必須要研究他們之間的相連關系,要研究他們的互動形态,顯現的形态有評論、心情、收藏、購買、評分、頂踩、分享、轉載、加為好友、邀請等等,這些統計資料都成為我們挖掘的基礎。隐形形态有跳轉、浏覽、翻頁、收聽、觀看、聊天、點選、取消、會話中斷、黑名單等等。
互動的特點可以從頻繁性、增量性、主動性、廣泛性、多樣性、持久性去研究社群成員的連接配接強度。我們利用拓撲勢方法挖掘社群,我們還要發現在一個社群中,誰是一個領頭羊,誰是第二個領頭羊,成員的角色和重要性,成員之間的關系等等。
在現實生活中,人類的某個概念,或者世界的認知經過一段時間的反複互動、彙聚、修正、演化,群體形成趨于相對穩定的共識。合作編輯下的維基條目,社會化标注等都是這種過程中的生動再現。
群體智能是一個最近說得越來越多的詞,大家知道我們曾經在計算機上做一個圖靈測試,讓計算機區分哪些碼是人産生的,哪些是機器産生的,這是卡内基美隆大學提出來的,在網絡購物、登入網站、申請網站時都會碰到适配碼被使用。
這裡我要提到第三個代表人物,他叫路易斯,他提出用這個适配碼應用方式。這裡面我提出另一個代表人物,70後,1979年出生,路易斯提出能不能把129年的報紙掃描,把圖檔碎片化,變成檢驗碼,讓大家去識别,這樣一來,如果每天有兩億個檢驗碼,進而一下子就把129年的紐約時報實作數字化,這就是群體智能。有些事情計算機做得很好,人做不好,有些事情人做得很好,很簡單,計算機做不好,怎樣把這兩個優勢加在一起呢?于是就有了群體智能。
是以雲計算支撐大資料挖掘要發現價值的話,我們認為雲計算本來就是基于網際網路的大衆參與計算模式,其計算資源是動态的,可收縮的,被虛拟化的,而且以服務的方式提供。産生擺脫了傳統的胖配置帶來的系統更新開柙,更加簡潔、更加靈活多樣、個性化,手機、遊戲機、數位相機、電視機差别細微,出現更多icloud産品,界面人性化個性化,可成為大資料挖掘的終端。
挖掘員支撐各種各樣的大資料應用,如果我們有資料收集中心、存儲中心、計算中心、服務中心,一定還有資料挖掘中心,這樣一來,我們就可以實作支撐大資料的及時應用和價值的及時發現。
雲計算産生的衆包思想已經被大家接受,無論是電影行業,還是搜狗的輸入方法,還是攝影照片共享,還是t恤衫的設計購買,說明衆包是怎麼樣完成生産購買的。是以我們可以設想,在網際網路環境下,利用人的認知和大衆間的互動,融合計算機存儲對大資料挖掘,形成群體智能,這樣一來,我們提出一個新的概念,叫衆挖,大家來挖。
使用者無需關心資料的形态,無需關心資料的擷取位置、結構模式、存儲方式以及分析過程,得到的就是及時的足夠滿意的挖掘結果,maas,誰是挖掘時代的谷歌呢?
大資料時代技術的有效性要比科學的完整性更為重要,如果說科學是解決形而上的問題,技術是解決行而下的問題的話,我們回顧一百年來的曆史,在上世紀的後半世紀,我們有了1930年的圖靈模型,1970年我們有了實體的計算機,80年代,我們開始了關系資料庫和産業,後來我們有了專家系統,在前50年大概都是科學引領技術發展,科學是技術先導。現在情況發生了變化,雲計算的形而上是什麼呢?有人說是網絡科學,大資料的形而上是什麼呢?有人說是資料科學。
資料結構的形式化限制由強到弱的演變非常明顯,70年代是強限制,後面的web計算是半結構化限制,到現在我們用的這些微機、手機、物聯網傳感器,越來越弱限制,弱到什麼程度?弱到我們這個社群文化的常識就可以了,就好象說我們在城市裡交通行人靠右走,這是不需要大家說的常識。
是以,我的基本結論是大資料标志一個新時代的到來,這個時代的特征不隻是追求豐富的物質資源,也不隻是無所不在的網際網路帶來友善的多樣化的資訊服務,同時還包含差別于物質的資料資源的價值挖掘,以及價值轉換,虛拟世界的資訊價值挖掘導緻更加精确的控制實體世界的物質和能量,以及由大資料挖掘帶來的精神和文化方面的嶄新現象。
于是,我們可以看一看從三四十年前的計算時代到二三十年前的搜尋時代,到今天開啟的互動時代,我們依然會想起那英唱的那首歌,山不轉水轉,水不轉雲轉,雲不轉心轉,再深的巷子也能走出那個天,再大的資料也能繞過那道彎,謝謝大家!
随着李院士的話音,現場放出那英的“山不轉,水轉…”,現場響起雷鳴般的掌聲,持續半分鐘有餘。
原文釋出時間為:2014-05-22
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号