天天看點

專訪EMC劉偉光:Greenplum的大資料戰略

本文講的是<b>專訪EMC劉偉光:Greenplum的大資料戰略</b>,大資料擁有巨大的發展空間,從各國政府對大資料的政策中可見一斑。美國總統奧巴馬推出的大資料發展計劃,集合全美最頂尖的專家,将資料轉變成商業資産和價值。中國的大資料市場同樣毋庸置疑,大資料蘊藏着巨大的潛力和商機。近幾年,IT廠商紛紛推出各自的大資料戰略,EMC也不例外。

  EMC作為一家傳統的存儲廠商,在全球存儲領域一直處于上司者的地位。近日,IT168記者對EMC資料計算産品部大中華區總經理劉偉光先生進行了專訪,共同探讨了大資料商業價值和大資料市場空間等一系列話題,并深入分析了EMC Greenplum的大資料戰略。

專訪EMC劉偉光:Greenplum的大資料戰略

▲EMC資料計算産品部大中華區總經理劉偉光先生

  據劉偉光介紹,他于2011年11月加入EMC公司,負責資料計算事業部大中國區整體的營運。此前曾在Oracle工作将近八年的時間,從系統架構師開始起步,後來做到大中國區企業架構團隊的進階經理,2010年成為Exadata大中國區産品事業部的總監。劉偉光所在的EMC資料計算産品部門前身是EMC收購的Greenplum公司。Greenplum是分布式資料庫的全球上司者,EMC看重它未來的商業價值,尤其在大資料市場的巨大潛力,是以收購Greenplum公司。在全球成立獨立運作的事業部,即資料計算事業部。劉偉光作為這個事業部大中國區的經理,主要負責這個産品的在中國整體的業務推廣,包括銷售、售前、服務、品牌推廣等一系列工作。

 <b> 資料庫發展的三個裡程碑</b>

  第二個裡程碑是資料倉庫,也可以比喻成IT建設解決溫飽問題之後更高層次的需求。在這個階段,企業的IT營運達到一定的水準,積累了很多經驗。企業發現資料是非常重要的資産,但是并沒有将常年積累的資料變成指導企業營運的技術基礎。在這個階段,很多大型企業開始建設資料倉庫。資料倉庫的前身是分析報表系統,即把資料從資料庫中抽取出來形成統計報表,但這個報表通常不會對企業營運和決策分析做指導。到了資料倉庫的階段,資料不僅形成報表,還要根據各種主題、企業内部需求進行加工、分析,進而形成決策支撐的資料來源。經過存儲資料、挖掘資料、加工資料、展現資料的過程,資料産生的結果成為企業下一步營運和制定市場政策最重要的技術輸入。

<b>  大資料蘊藏商業價值</b>

  現在很多公司都在談論大資料,專家對大資料都有着各自的看法,劉偉光認為大資料主要包括四個特征:第一,大資料的資料量非常大;第二,大資料有非常複雜的資料來源;第三,大資料有非常複雜的資料結構,并不是傳統關系型資料庫能夠處理的資料集合;第四,大資料的實效比很低,即在機關時間内處理資料的價值是相對較低,但如果能達到快速處理和分析機關時間内的大資料,就将産生無法預期的商業價值。

  盡管大資料的實效比很低,往往需要大量計算能力,但是大資料蘊藏的商業價值不可小觑,劉偉光非常看好大資料的市場發展前景。首先從商業價值角度分析,在金融業領域,通過挖掘和分析客戶的各種交易資訊,可以通過決策分析而最大化的提高企業銷售利潤。從正面角度看,這種方式可以找到高價值的客戶,将相應的産品進行準确的營銷;從反面角度看,還可以進行反欺詐分析,降低企業的營運風險。

  <b>EMC Greenplum的大資料戰略</b>

  目前,EMC已經不再隻是傳統的硬體廠商,而是通過資料存儲,幫助企業有效的管理内部的資料資産,創造更高的商業價值。據劉偉光介紹,EMC一直倡導“資料改變商業模式”的理念,把存儲的資料變成一種商業價值,這就是EMC的大資料戰略。具體來說包括三個層次:第一,EMC能夠提供快捷的、高可用的、能夠橫向擴充的大資料存儲架構;第二,EMC不僅能夠處理傳統資料庫處理的結構化資料,還能支援半結構化和非結構化的資料的存儲管理;第三,資料分析。Greenplum承擔最上層的面向大資料的高性能分析。

專訪EMC劉偉光:Greenplum的大資料戰略

  EMC Greenplum統一分析平台(UAP)是EMC Greenplum大資料戰略中至關重要的一環。EMC Greenplum統一分析平台結合Greenplum Database 、Greenplum Hadoop、Greenplum DCA、Greenplum Chrous為企業建構高效處理結構化,半結構化,非結構化資料的大資料分析平台。并且客戶可以以此平台為基礎利用Greenplum行業和數學統計方面的專家,充分挖掘自身資料價值,實作資料資産從成本中心到利潤中心的轉變,以資料驅動業務。其中,Greenplum Chrous在行業中處于領先地位,它的操作使用習慣非常類似Facebook、開心網的社交模式。通過Greenplum Chrous可以建立資料沙箱,将一定的資料變成一個集合,使用者都可以對這個集合利用工具進行處理和分析,共享資料庫的分析結果。讓這個資料分析和挖掘,不再是專業人士做的事情,并且增加趣味性,各種角色可以進行互動,形成一個資料社交圈。

  EMC Greenplum統一分析平台還包括一個重要的方面,就是“資料科學家計劃”,它将人的智慧與技術産品相結合。資料科學家不僅需要具有資料本身的知識,還要求有一定的數學模組化能力,同時要懂得企業内部的運轉流程。是以資料科學家是能夠靈活利用各種工具去抓取資料,形成資料集合、資料沙箱,進行快速的實時分析和展現的一種角色,幫助企業将資料變成商業價值。

  <b>真正的資料庫雲平台</b>

  EMC Greenplum還采用了很多開源技術,其本身就是基于PostgreSQL開發的,随着大資料的發展,Hadoop也成為Greenplum的工具之一。Greenplum Hadoop與開源Hadoop有着很大的差別,主要展現在兩個方面:其一,Greenplum Hadoop對企業的高可用性和安全性有很強的保障機制;其二,傳統企業希望購買商用Hadoop産品,以延續使用傳統技術的習慣。即使是擁有強大研發團隊的大型網際網路企業,也希望在某些關鍵性交易系統中采用商業Hadoop。另外,Greenplum Database與Greenplum Hadoop兩個産品的結合度是全世界領先的,結構化、半結構化、非結構化資料能夠在這兩個産品之間動态的切入。EMC的理念是用資料庫技術對Hadoop進行操作,讓使用者感覺不到資料是存儲在資料庫還是Hadoop中。外部表是解決這一問題的關鍵技術,與其他廠商采用中間轉換工具的方式不同,外部表可以把Hadoop當成Greenplum資料庫中的一個表進行操作。

 <b> 小結</b>

  EMC傳統存儲硬體廠商的身份已深入人心,兩年前收購Greenplum的舉動被看作EMC完整大資料戰略的重要裡程碑。随着EMC與Greenplum的進一步融合,Greenplum在資料分析處理上的優勢也會日益顯現,軟硬結合的大資料戰略将幫助EMC完成由硬體廠商向整體解決方案提供商的轉型。由此可見,大資料改變的不隻是商業模式。

作者: 王玉圓

來源: IT168

原文标題:專訪EMC劉偉光:Greenplum的大資料戰略