天天看點

阿裡十年經驗輸出,大資料平台“數加”的前世今生

2016

年1月20日,在雲栖大會上阿裡雲釋出了一站式大資料平台“數加”,該平台集合了阿裡巴巴十年的大資料能力以及上萬名工程師實戰檢驗,該平台是一站式的解決方案,首批亮相20款産品,覆寫資料采集、計算引擎、資料加工、資料分析、機器學習、資料應用等資料生産全鍊條。

數加平台由大資料計算服務(maxcompute)、分析型資料庫(analytic db)、流計算(streamcompute)共同組成了底層強大的計算引擎,速度更快、成本更低。計算引擎之上,“數加”提供了豐富的雲端資料開發套件,包括資料內建、資料開發、排程系統、資料管理、運維視屏、資料品質、任務監控等在内。

“數加”還向有資料開發能力的團隊開放,這些團隊可入駐“數加”,借助數加上的工具為各行各業提供資料服務。大資料開發套件的優勢包括:支援100人以上協同設計、開發、運維;具有良好的擴充性;提供各個産品功能子產品的open

api,可二次開發;多個資料執行個體之間的資料授權機制,確定資料隻能使用卻不可見;提供白屏化的運維能力,以及字段級資料品質監控、機器預警、資源使用率監控等功能,讓使用者更好的掌控自己的資料及資料任務。

大資料計算服務可6小時處理100pb資料,相當于1億部高清電影。單叢集規模過萬台,并支援多叢集聯合計算。做到了速度更快,成本更低。經測算,自建hadoop叢集的成本是數加的1.5倍,國外計算廠商aws 的emr成本更是數加的5倍。

此次釋出的産品還覆寫資料采集、計算引擎、資料加工、資料分析、機器學習、資料應用等資料生産全鍊條。具體來看:

資料采集方面:datahub可為使用者提供實時資料的釋出和訂閱功能;

底層計算引擎:由大資料計算服務maxcompute(原odps)、分析型資料庫analytic db、流計算streamcompute共同組成。

大資料計算服務可6小時處理100pb資料,相當于1億部高清電影;單叢集規模過萬台,并支援多叢集聯合計算。做到了速度更快,成本更低; 分析型資料庫analytic db可實作對資料的實時多元分析,百億量級多元查詢隻需100毫秒; 流計算streamcompute對實時流式資料進行分析,具有低延時、高性能的特點。每秒查詢率可以達到千萬級,日均處理萬億條消息、pb量級的資料。

資料分析方面:

mobile analytics 讓開發者可快速搭建日志采集、分析系統,進而為使用者提供個性化服務;

datav 通過數加bi報表産品,3分鐘即可完成海量資料的分析報告。産品支援多種雲資料源,提供近20種可視化效果;

通過資料可視化産品datav,一星期就能做出雙11同款大屏;

基于datav,數加還釋出了面向政府的行業應用産品“郡縣圖治”:通過這款産品,縣長可以在一個螢幕下統覽全縣各項經濟民生資料,為政府決策提供輔助。

機器學習方面:

可基于海量資料實作對使用者行為、行業走勢、天氣、交通等的預測;

圖形化程式設計讓使用者無需編碼、隻需用滑鼠拖拽标準化元件即可完成開發;

産品還內建了阿裡巴巴核心算法庫,包括特征工程、大規模機器學習、深度學習等

提供了全面支援,包括規則引擎、推薦引擎、文字識别、智能語音互動等;比如規則引擎是一款用于解決業務規則頻繁變化的線上服務,可通過簡單組合預定義的條件因子編寫業務規則,并做出業務決策。而文字識别提供自然場景下拍攝的圖檔中英文文字檢測、識别以及常見的證件類檢測和識别。智能語音互動基于語音和自然語言技術建構的線上服務,為智能手機,智能電視以及物聯網等産品提供“能聽、會說、懂你”式的智能人機互動體驗。

阿裡十年經驗輸出,大資料平台“數加”的前世今生

<b>阿裡雲的大資料平台數加的整體架構</b>

阿裡十年經驗輸出,大資料平台“數加”的前世今生

<b>第一個資料倉庫——阿裡大資料分析的雛形</b>

<b>

</b>

在2004年5月,為了從大資料中分析目前狀況,并預測未來的趨勢,出現了第一個大資料倉庫;到2008年,淘寶的業務量與資料量已達到04年的數千倍,按照這樣的趨勢,不出幾年ioe的成本就會将公司拖到破産。鑒于oracle的性能已經不足以支撐新的業務量,底層技術架構亟需更新。到2009年,新的資料公司成立。

當時,整個伺服器與全部資訊四處分散,整個數倉的邏輯是以很多腳本拼湊而成。由于其中的邏輯過于複雜,一旦系統出錯,隻有專人才能解決。彼時還存在諸多問題,包括:伺服器使用率低、資訊孤島、資料備援、基礎建設一窮二白,而且由于雲計算技術還是新興技術,存在着安全隐患。

<b>為了解決這些問題,阿裡決定成立阿裡雲,從底層重構雲計算及大資料技術。</b>同時,為了實作自主可控,阿裡金融成立。

阿裡金融的成立意義重大,整個管理層從中真正看到了資料公司的雛形。總結來說,在這樣的公司中:資料是它的生産資料;隻有把這些資料集中融合,才能産生這種業務。

阿裡十年經驗輸出,大資料平台“數加”的前世今生

<b>隻有集中融合資料,才能産生這種業務</b>

不過随着時間推移,到2010年,雖然大家承認這種模式很好,但實際上還存在着嚴重的問題:一是在生産資料方面:如何集中和打通這些資料,實際上曆史資料是很欠缺的。之前大家并沒有這方面的意識,是以沒有保留曆史資料,變更都是直接替換。二是在生産工具方面:阿裡系統需要大量的計算,那麼如何解決大規模計算問題?

阿裡十年經驗輸出,大資料平台“數加”的前世今生

<b>原odps,現maxcompute的進化史</b>

由于諸多問題,資料應用急需改革與整合:資訊重複存儲、标準不一,存在很多小叢集,基礎建設每年需投入幾十億;而且每一塊業務都可能需要淘寶的内部表,因而研發成本較高;同時資訊擷取時間較長,一個資料需要等半年;另外搜尋資料也很困難。

<b>1. 資料平台部成立</b>

最終,在2012年資料平台部(cdo)成立,具體執行的工作可以總結為三個詞:存、通、用。“存”将資料大集中,存入odps;“通”:統一規範,打通各個業務機關;“用”:推動資料開放和交換,促發展,養生态。

阿裡十年經驗輸出,大資料平台“數加”的前世今生

<b>一切業務資料化,一切資料業務化</b>

<b>2. 成立odps</b>

2012年,我們還計劃将集團内部幾十個小叢集進行統一,這個任務又稱登月計劃。到了2013年,我們決定将整個集團的業務集中在一個平台上,不僅是阿裡系統可以使用,其他業務也能使用。是以我們将原本的資料倉庫改名為大資料計算服務(odps),并将所有金融業務所需要的資料放在雲端,集中到odps上。

<b>3. 大資料基礎設施成熟,開始創業</b>

2015年,大資料基礎設施成熟,既然阿裡在資料方面有這麼多的經驗,有這麼多的能力,我們想要将這樣的能力分享給其他創業者,讓普惠大資料成為現實。所謂的“普惠大資料”這個概念,可以簡單表述為:讓大資料為人人可用;大家用得起、用的快,用的好;生态化,要和服務商共享三年,共享一萬億的計劃。

<b>4. 

數加平台推出:</b>

此時的問題在于産品化不足:如何将這個平台商業化,将内部使用的産品調整成公共平台;産品獨立部署的問題:平台與之前内部系統聯系緊密,需要剝離;需要适應具體客戶的需求。

最終确定了下面的解決辦法:将整個平台拆小,拆分成不同功能的子產品;将産品從原有系統中剝離出來;3)既然阿裡擅長平台,我們先把平台做好,再與所有行業夥伴一同合作。

直到2016年1月,數加平台支援對外服務。

阿裡十年經驗輸出,大資料平台“數加”的前世今生

<b>數加平台支援對外服務</b>

簡單來講有以下三點,首先是回歸商業本質:每筆業務有相應的費用;其次是解決業務問題:有專門的咨詢團隊,必要時可以與客戶面對面溝通來協同客戶開發;最後,拓展自己的商業邊界:從已有資料總結,發現新的商業機會。

<b>2. 具體業務問題的解決</b>

在缺乏精準化營運的情況下,公司在決策時隻能靠猜或者靠蒙。為了解決這個問題,首先需要樹立名額。

例如在叫車場景中:司機和乘客兩端,乘客是降低等待時長,司機是降低空駛率,需要優化這兩個名額。另外,不能盲目在中間流程加内容。

從微創型小點出發,從旁路來做優化設計,這就是典型的旁路設計。比如司機現在有個單子,想要不停地接單。設計方式如下,首先是标簽:司機在過去二十分鐘之内接過單;其次,目前司機手頭上定單的終點有人在打車。将其拆成兩條規則,把類似的接力單、返程單、交接班單統統用資料描述,這就是典型的用資料進行業務的産品。

例如在商業wifi公司通過建立o2o營銷平台時:首先根據客流和商鋪資料挖掘人物對商鋪的興趣圖譜、商鋪之間的關系網;其次整合标簽做多元透視,深度刻畫人群畫像,為商鋪提供分析平台;最後使用定向營運為商鋪提活動定向,精準觸達目标客戶。

這樣一來,通過強大的分析引擎,我們支撐了分析平台的功能研發,并實作了精準定向實作使用者準确觸達。

<b>3. </b><b>關于資料可視化</b>

針對不同角色,所需要設計的内容也不同,而且要具有啟發式,利于公司上司者進行決策。

“技術是沒有門派的,服務也是沒有邊界的。任何的技術的誕生都是源于最終使用者的需求和服務。”當阿裡雲與九州雲、潤和軟體、創客+、國家氣象局、nvidia簽署戰略合作時,阿裡雲資深總監李津這樣說道。

通過技術融合服務于使用者,這是整個數加平台真正的生态價值所在,也是未來雲技術的發展趨勢。

大資料在各行各業都發揮着自己的作用,包括水利、氣象以及未來的海洋、地震、國土等重大基礎資源管理的行業和部門;還有交通、娛樂、物流、健康等創新型行業;也包含人機互動、全管道crm等計算機相關領域。

有了這樣的生态和阿裡雲的數加大平台在一起,阿裡雲計劃用3年時間吸引1000家合作夥伴入駐,能夠通過數加這個平台,能夠培養一千位首席資料官,更希望能培養出五萬名資料科學家。

繼續閱讀