天天看點

【幹貨】林漳希:新興中的資料科學與工程

【幹貨】林漳希:新興中的資料科學與工程
【幹貨】林漳希:新興中的資料科學與工程

我先談談如何重新認識大資料,接着我要分别強調一下資料科學和資料工程,這是這個報告的要點,我想從一個具體的案例分析說起,最後一點談談如何重構大資料的價值。

【幹貨】林漳希:新興中的資料科學與工程

我們對大資料的認識,如同一個人在成長過程中對人生的認識,可以用德國文學家歌德的著名短篇小說“少年維特之煩惱”來比喻。在2010年起的短短幾年中經曆了覺察、憧憬、定義、實踐等過程,在讀過少年青春期的躁動之後,現在開始進入價值實作的時期。

【幹貨】林漳希:新興中的資料科學與工程

現在大資料的領域面臨一個現實的大問題,我們開發了那麼多技術,有那麼多好算法,囤積了那麼多資料,那麼我們怎麼獲得資料價值?我們如果能繼續擷取更多價值,那麼資料的不斷存儲和囤積是有用的。但是即使你有了一筆資料,不等于你有了一切,因為資料是在不斷變化的,你如果不生成新資料,那麼老資料價值會慢慢減低。是以在目前大家認可的資料是有價值這個基礎上,還要補充一點,就是一個動态增長的資料體系是獲得資料更高價值的保證。

如這張源于ibm的圖所示,擷取大資料價值核心是由中間五個公共應用部分來實作的:大資料探索、安全和風險預警、資料倉庫能力增強、運維和營運分析和360度全方位客戶分析,這些可分享的功能可以應用在外面這一圈不同的領域中。在這裡面,資料科學和資料工程起到重要作用,隻用通過資料科學家和資料工程師的努力,不斷增長的資料才能轉化為源源不斷财富。

【幹貨】林漳希:新興中的資料科學與工程

今天,資料科學已經不再是新鮮的概念,我國一些大學已經有了資料科學研究院,如清華大學和天津大學,而在矽谷早已經有很多公司都成立了資料科學的部門。這是因為資料科學和已經廣為應用的商務智能是一脈相承的,而商務智能已經發展了20年了。怎麼把資料轉化為資訊,資訊轉化為知識,知識轉化為見識,再把見識轉化為決策是非常重要的。這個資料科學應用的流程實際上就是商務智能的流程。

【幹貨】林漳希:新興中的資料科學與工程

我這裡介紹一個例子-北京1039交通台樣本資料,這資料非常小,是通過北京市給一萬多個計程車司機一人發一個手機采集來的,手機上有gps,這裡作為例子所展示的資訊是汽車所在地點和時間,變量很少,但是我們可以看看這樣簡單的資訊能給我們提供什麼樣的分析結果。

【幹貨】林漳希:新興中的資料科學與工程

這是在某一時刻汽車位置圖,是根據浮動車輛在同一時刻的位置畫出來的。根據這個位置圖,如果在下一個時刻可以知道某輛汽車的新位置,就可以知道這部車移動多少,那麼距離÷時間就是速度。由此可以得到所有車輛的車行速度,然後就是動态的汽車分布和密集度。通過對某個時間段資料的彙總,我們還可以看到車輛的活動範疇和活動規律。

【幹貨】林漳希:新興中的資料科學與工程

這裡再舉一個例子,ibm上海研究院幾年前為肯亞的m-pesa做了一個移動銀行的信用評估項目,肯亞m—pesa是世界上最大的移動銀行系統,後來要推出移動信貸服務業務。肯亞手機使用者在小額貸款上有很大需求,貸款額一般不超過一百美元,月息可以達到5%。ibm所做的這個項目是要用手機的移動資訊做信用評估,但是要怎麼評估這些使用者的信用呢?其中一個訣竅就是把實際位置資訊和地标資訊做關聯。但是ibm上海研究院拿到這個資料時遇到一個很大的問題,就是肯亞的使用者用的大都是非智能手機,沒有gps的地理位置資訊,隻有移動中和哪一個基站相關聯的資訊。ibm花了近三年時間解決了這個問題,搞出一個不錯的信用評估模型,這個項目的成功靠的是資料科學與工程。同樣的,宜信在這方面做了大量工作,宜人貸去年上市和他們公司的大資料分析應用非常相關,其中一個應用分析子產品是和手機地理位置資訊分析相關聯的。

【幹貨】林漳希:新興中的資料科學與工程

資料科學可以做什麼呢?歸納起來,資料科學在資料品質診斷和問題處理,資料資源整合和價值發現,資料模組化和模型性能評估,資料降維,商業價值實作等方面扮演着重要角色。在圖的右邊是關于資料科學所需要的基本技能的一個調查結果,從網上刊登的一篇文章轉債的,可以看到,統計方面技能占了十大技能的一半。

【幹貨】林漳希:新興中的資料科學與工程

資料工程相對于資料科學還提得比較少,但是現在我們發現資料工程在大資料應用中的地位變得越來越重要。資料工程在資料科學和大資料之間扮演着十分重要的作用,沒有采用資料工程的方法來采集、清理、處理、管理大資料,再好的資料科學方法也難以施展。

【幹貨】林漳希:新興中的資料科學與工程

這是美國積累多年的資料架構和方法論,上面分了很多細節的問題,底下的兩層是和資料工程密切相關的。當我們通過內建統計、數學、計算機等知識系統地訓練資料科學家時,我們卻缺少同樣的體系來培養優秀的資料工程師。對資料科學和工程的綜合人才培養,目前我隻查到有一個學校辦了資料科學與工程碩士點,就是清華大學,其他學校的我暫時還沒有看到。

【幹貨】林漳希:新興中的資料科學與工程

資料工程是和業界的實際應用緊密關聯的,而我們的大學講課的内容和實踐比有很大滞後。比如資料湖這個概念,大學裡有多少學校在介紹資料湖呢?這個概念剛剛提出兩三年時間,現在業界已經廣泛應用與大資料管理。通常的資料管理和應用,我們有面向生産的業務資料庫,在ods經過預處理以後加載到資料倉庫,完了以後,各個部門通過導入這些資料到自己的資料集市,提供本地的資料分析應用。實際使用中,這些來自生産部門的資料是不夠用的,很多部門還自己采集外部資料作為補充,比如銀行的市場營銷部除了銀行的資料之外還會搜集其他的行業資料,這些資料不來自業務資料庫,也不會包括在公司資料倉庫裡,是以形成了本部門很混雜的資料群,而一個公司裡的這類資料加在一起就形成了一個很大但是沒有很好地協調管理的資料叢集,這就提出了公司内部資料治理的一個課題。在這個問題上我們面臨的問題就是要解決大資料的管理問題,你必須要有一個全面的大資料存儲和管理的架構,你要先把整個資料體系設計好,然後才有可能把各種管道采集來的資料存儲好,才有可能充分共享,并在在上面提煉到所需要的東西,這個任務就是資料工程的很重要的一個部分。資料湖技術在這裡扮演着重要角色,相信很快就會再中國普及。

【幹貨】林漳希:新興中的資料科學與工程

資料工程涉及的内容挺多,其中要求資料工程人員對于業務工作了解足夠深入,基本技能有資料邏輯思維,資料查錯能力,計算機資料處理能力,統計分析和采樣技術,等。其中在資料處理上,我們中很多過來的人會有共同的體驗,比如國家發改委的經濟資訊中心系統從1980年代初第三次人口普查開始形成,在這個系統裡的很多人在長年累月的資料進行中獲得很多技能,而這些技能是大學裡從來沒有學過的,需要在實踐中摸索體驗,是以一般大學出來的都要一到兩年才能逐漸上手。到現在,大學的計算機課程教學還是沒有資料處理這個内容。我們說遊泳要有水性,做資料要有資料性,在這方面人才怎麼培養是一個問題。

【幹貨】林漳希:新興中的資料科學與工程

在前面談了資料科學與工程的定義和重要性的基礎上,接下來就是大資料價值體系重構問題,我們已經認識到大資料非常有價值,但是如何實作大資料價值,最終還是需要合适的人來做,套用名人的說法“資料戰略決定之後,人才就是決定的因數”。重構大資料價值體系的關鍵在于重構大資料人才培養體系。

【幹貨】林漳希:新興中的資料科學與工程
【幹貨】林漳希:新興中的資料科學與工程

這是各個行業資料科學家的比例。

【幹貨】林漳希:新興中的資料科學與工程

對資料科學家的需求在不斷的上升,未來五年需要50名有素質的資料科學家,缺口高達19萬,還需要150萬名了解資料的高管和人員。

【幹貨】林漳希:新興中的資料科學與工程

作為一個企業大資料的主管,可以查查你的企業是否能夠應對這些挑戰。就是說你的大資料團隊能夠勝任這些任務嗎?你的科學家和工程師,還有你的系統技術人員能支撐你的關鍵技術嗎?對于一家公司來講是否有能力制定資料發展戰略和制定企業的資料治理方案,是不是有能力把資料整合以後,而且能把整合後的資源轉化為你的生産力,使你的業務能力大大提高,這是一個很重要的問題,我現在接觸到很多公司高管,不管在北京、上海、成都、福建,都提到一個共同的問題 - 我們缺人。包括阿裡巴巴也缺人,騰訊也缺人。大家缺的是資料科學與工程的高端人才。

【幹貨】林漳希:新興中的資料科學與工程

是以在缺人的情況下我們必須要有人做知本家,知識的資本家。要有知本,我們在教育方面一定要提升。大資料價值實作要解決的核心首先是人才培養,這些人才可以解決大資料價值擷取的問題。是以我們需要資料戰略家,需要資料科學家,還需要資料工程師。

【幹貨】林漳希:新興中的資料科學與工程

我設想的人才結構分四個梯次,戰略型、研究型、研發型、和創業型。這四個梯次可以用類似智庫、産業研究院和創新工廠的組合形式來實作,由高校提供基本人才,通過面向産業化的研究院,由創新實驗室研發成功項目,再進入新創企業。在高地上的人才指的是智庫的人才,在沙灘上的人就是願意下海的人,他們對産業東西很了解,同時得到智庫的指導,但是他們并沒有下海,而涉水的則是那些直接給公司提供服務咨詢,但是還沒有開始創業,他們在條件成熟後就可以下水遊泳,那些跳下去遊泳的,也就是下海的,專職創業。現在很多創新和産業孵化機構已經在做這些事情,但是一般強調的是項目,我這裡強調的是人才。

【幹貨】林漳希:新興中的資料科學與工程

這個四階段人才應該納入一個體系中,針對大資料領域的特點,形成一個資料科學與工程的人才供應鍊,和大資料産業結合成一個有機的生态系統。在圖中這麼一個體系結構中,大資料産業聯盟的地方應該是例如塔塔資料的位置,當然包括其它公司和研究機構,核心部分是資料科學與工程研究機構,它們不是純粹的研究機構,是面向産業化的研究機構,就有點像清華資料科學研究院這類性質的,直接和企業挂鈎,同時背靠大學,同時要和其他資源對接起來。

原文釋出時間為:2016-07-30

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀