天天看點

行業專家全方位全角度闡述大資料

本文講的是<b>行業專家全方位全角度闡述大資料</b>,目前,行業對于“大資料”的關注疾速攀升,這并不亞于資料本身的增長程度。您是否想過,我們看到的“談大資料色變”或許隻是個表象,走在行業前列的企業早已開始默默挖掘大資料中蘊含的“金礦”,為自己的業務飙升邁出制勝一步。

  作為行業引領者,IBM一直走在新趨勢的前沿,對于大資料更是全力融合創新技術與行業經驗助力客戶梳理大資料概念,選擇戰略方向,制定方案政策,實作行業落地:今年5月,IBM智慧的分析洞察正式釋出,為大資料環境下的企業描繪了一幅宏偉的戰略藍圖。在此基礎上,IBM全面整合内部資源,搭建了融軟體、硬體、服務為一體的大資料平台,為企業提供易執行、低成本、高效率的大資料解決方案。在行業方面,IBM為行業企業量身定制的大資料解決方案優勢充分凸顯,大資料制勝政策已不再紙上談兵,實踐之花也開遍制造、電信、金融等諸多行業。

  近日,來自IBM軟體集團大中華區業務分析洞察及智慧地球解決方案總經理 蔔曉軍、IBM軟體集團大中華區制造事業群總經理 蕭丁瑞、IBM軟體集團大中華區資訊管理軟體總經理 盧偉權、IBM軟體集團大中華區架構師總經理 林旭光、IBM中國開發中心資訊管理首席架構師及大資料架構師 陳奇 博士、IBM大中華區軟體事業部銀行業解決方案進階顧問陳劍等專家就IBM大資料的戰略以及技術方面以及在行業裡面的應用場景與記者進行了全面的交流。

<b>  記者:目前商業銀行認為現在對于大資料的政策有難度,這一塊他們在想借鑒一下網際網路公司做法,IBM提出大資料的平台怎麼與跟他們有一個很好的融合,能夠覺得在處理資料的時候不會遇到他們所想象的困難和難度在裡面。</b>

<b>  陳劍:</b>目前大家比較關心的幾個領域,一是跟資料倉庫的關系,其實真正的核心系統類似交易系統不太會直接去動。剛才談到客戶的分析,客戶行為、客戶分群,未來做精準營銷。其實跟網際網路類似的一些應用場景,大家知道銀行的網站的分析是做得不夠,包括之前我們跟很多大行在交流,對它的網站通路資訊,知道點選的行為,比如一個使用者上我的網站,在我房貸的頁面停留10分鐘,以前這個資訊銀行是存下來,但是是在一些日志檔案裡,沒有被挖掘出來。如果未來借鑒網際網路應用的比如電商這些就可以很好的,我知道這個人在我的網站某個領域停留一段時間,知道可能對什麼感興趣,這樣我再做營銷就非常精準,這是我們談的精準銀行的一部分,這是針對網站的分析。

  剛才在分享的過程當中也談到交易的分析,這是我跟五大行之一去年做了很長時間的研究,我們研究院也在裡面參與,我們叫做社會統領性分析。現在很多行的所謂的理财産品相關的産品都是同質化非常嚴重,現在很多人談社交,其實社教部完全隻是發微網誌和部落格,比如我30多歲剛結婚,如果要有小孩,我肯定希望了解跟我收入類似的,我的年齡段的人怎麼投資,特别是這兩年經濟危機的情況,各種理财産品收益也比較低,怎麼更好的來組合,更好的一種方式是我能了解,我這個年齡段,我這個收入水準,我這種生活狀态,比如未婚到已婚的變化,相應類似的這群人怎麼消費和投資,這是非常關鍵的。我們通過這樣的分析,這是大量的分析,我們要知道像有一個行網銀使用者就是3000萬,不管是網銀使用者還是信用卡刷卡,這個量都非常大。這些需要定期的去按照資料模型進行運算,之前是做不到,我們現在基本上做到,能夠通過這個模型計算出這群人,我們是統計算法,能夠自動地把客戶分群算出來,你會被歸到某一類人群裡,一旦登陸網銀的時候可以自動推送還是把這個結果給銷售團隊和推廣團隊,主要利用這個來可以打電話,因為這個就很準确了。這是客戶分析方面的。

行業專家全方位全角度闡述大資料

▲從左到右依次為:IBM軟體集團大中華區資訊管理軟體總經理 盧偉權、IBM軟體集團大中華區業務分析洞察及智慧地球解決方案總經理 蔔曉軍、IBM中國開發中心資訊管理首席架構師及大資料架構師 陳奇 博士、IBM軟體集團大中華區制造事業群總經理 蕭丁瑞、IBM軟體集團大中華區架構師總經理 林旭光、IBM大中華區軟體事業部銀行業解決方案進階顧問 陳劍

  另外,我們跟銀行交流比較多的是曆史資料管理。剛才也談到十幾年的資料怎麼來分區,哪些東西放到傳統的資料倉庫,哪些放到分布式叢集裡,還有資料本身的生命周期,哪些東西進行一定的運算以後就扔掉了,不一定存起來,可能隻存相應的結果。這些是我們談得非常多,也是做很多相應的試點工作。随着時間的推移,可能下半年我們會看到越來越多更多的案例出來。

<b>  盧偉權:</b>我們跟很多金融行業的客戶溝通了,他們比較看重的是現在整個資料架構,不僅是資料平台架構,還有資料架構,舉個例子,哪些資料放在主機,哪些資料放在傳統的資料倉庫,哪些資料放在Hadoop的平台,哪些資料為什麼要放在不同的平台,這是比較擔心的,因為現在有不同的平台可以根據資料的重要性和根據資料的實時性,有一些很實時的資料放在哪兒,根據資料的可用性怎麼去用它,根據不同的次元怎麼把這些資料放在不同的平台,達到最優化的效果,在有限的資源裡怎麼搭建這樣的平台,把不同類型的資料用起來。在IBM來說,我們都是有不同的平台是可以滿足客戶,IBM也是比較全的,比如我們去看交易量,我們有主機的平台,我們也有資料倉庫,當你說大資料和非結構化資料,我們也有非結構化資料的平台,這三個平台都可以整合在一起。這是客戶比較關心的。

  除了剛才說的這些網際網路上的停留多少,還有一些客戶,因為電子管道現在是一個很重要的管道,怎麼去優化你的電子管道呢?舉個例子,我到一個網點去做一個交易,我碰到一些問題,我打電話給你,你根本不知道我遇到什麼問題,做了什麼事情。有一些應用是說把客戶在網銀上所做的事情都記錄下來,當他有問題的時候,你可以找到這個客戶在什麼時候做過什麼事情,所有你做的事情都已經在網際網路上記錄下來,當你有問題,你打電話給我,我就可以你做的交易是怎麼樣的,你做了什麼事情,我根據你做的事情,遇到什麼問題,可以優化我的網銀做法。這也是一個應用,除了看客戶的行為,還有就是優化我這個管道,這也是需要很大量的資料才可以去優化。

<b>  林旭光:在去年底和今年年初大家一直在談大資料的時候,客戶第一次跟我們講怎麼用大資料和Hadoop結合現有的資料倉庫,或者用更低的成本建資料倉庫,客戶也慢慢感受到其實網際網路公司,比如淘寶、谷歌的成功隻是在物聯網這個資料和它的業務上,可是你重新看銀行、電信公司,物聯網的資料應用隻是一小部分的補充功能,我們覺得在這半年過來,客戶已經慢慢了解到這個技術本身是有限制性的,客戶已經不會告訴你怎麼取締這個資料倉庫,他隻是說怎麼做互補的工作,更重要是把工作資料送到同一個市場、同一個資料架構,整理出來做更有效的分析工作。這是IBM一直在強調的,可能是跟其他客戶交流的時候總結的經驗。</b>

<b>  蔔曉軍:</b>因為銀行的确是這個行業夠大,我也稍微補充一點,剛才各位已經從不同的角度來看,我還有另外一個角度,大資料從網際網路起來之後,我們其他的行業,銀行、電信等等,甚至制造業都在談,IT部門前瞻性的認為大資料是一個趨勢,不能夠去承擔說不去擁抱大資料的資料所帶來企業的損失。從IT部門會看怎麼樣做這件事情,大資料是不是在我們所說的無論是銀行、電信,不是每個行業裡都有非常成熟的應用,IBM還有很好的能力可以幫助客戶的IT部門更重要的是業務部門去發現說我到底大資料的技術最适合應用在什麼樣的業務場景之下給你帶來商業價值。這是比純粹的技術讨論可能更容易讓客戶去決定啟動項目,一定是這個起點在哪裡,有點像六年前談SOA的時候有一個理想王國,但是我們的切入點在哪裡,大資料也是一樣,如果我們接納大資料我們的切入點在什麼地方。我們在兩天之前在一家交易所,我們國外過來的專家介紹國外華爾街交易所經驗的時候,講到大資料的切入點,針對于交易所更重要的是大量的快速的交易,每秒鐘上百萬筆的交易如何中間能夠及時的分析,發現一些交易異常,及時進行一些分析,幫助做一些決策。我們就會發現這時候通過IBM的InfoSphere Streams作為切入點,可能不見得是做Hadoop,今天IBM給客戶能帶來的商業價值是什麼,有一些地方是比較清楚的,比如在電信行業,移動網際網路的行為分析非常清楚,今天甚至我們移動總公司把一些規範都制定出來。有一些行業是比較新興的,我們怎麼樣在大資料的完整的概念之下,完整的架構之下,我們幫助客戶在轉型找到切入點,這也是IBM的責任。我這邊做一點補充,業務價值以及切入點的問題。

<b>  記者:非結構化資料的應用,比如像來自于社會普通的社交網絡和視訊的應用,從目前了解的情況來看,國内的發展商和國内的使用者這種非結構化資料,尤其是利用它來做業務分析和決策的案例幾乎還是沒有,可能大家還是比較集中那些海量的結構化資料的業務的方面。請問非結構化資料從技術上沒有什麼問題,可能沒有得到實際的應用,原因在于哪些方面同時,您怎麼看待非結構化業務分析的應用國内的應用前景?</b>

  提問:請問盧總,現在有很多廠商都在做Hadoop優化版本,像EMC、Intel、包括Hadoop也會内置到其中當中,IBM怎麼對Hadoop進行優化,有的Hadoop是基于x86的架構上,IBM是不是能夠把Hadoop進一步擴散,把相應的技術原理用在IBM Power機器上,在目前看,x86架構上的大資料的應用平台和IBM看到的整個大資料應用平台之間的差距在哪兒?

  第二個問題請問蕭總,應用要講應用的切入點,在您看來,比如在制造業的大資料切入點在哪個方向?

<b>  盧偉權:</b>我先回答第一個問題,IBM在Hadoop的平台上做了一些什麼樣的優化。在市場上大家都拿着Hadoop在上面做一些優化工作,Hadoop隻是在大資料平台裡其中一部分,因為還有很多不同的Adaptor來分析周期。IBM做的是,我們花了很大力氣,把在不同的Adaptor和Hadoop平台怎麼去整合在一起,如果你去網上,你要下載下傳一個Hadoop,可能要下載下傳很多不同種類的開源的東西才可以并在一起,然後自己還要做一個整合,有可能還跑不起來。如果你到我們網站上去,我們有一個免費的,把所有跟Hadoop不同的資料庫和連接配接器都做了測試,可以很容易安裝,你第一時間就可以把所有東西拿到。

  根據我們在資料庫幾十年,從主機的資料庫到開放平台的資料庫,怎麼去管理資料這一塊,我們把我們的經驗搭載怎麼管理Hadoop的平台上,有一個資料管理。IBM在這一塊做了一些怎麼管理Hadoop平台的管理功能,這也是花了我們很多力量去做的。

  Hadoop隻是一個平台,裡面是沒有什麼分析的功能,裡面很多東西都沒有,我們在Hadoop的平台上已經建了很多功能在上面,普遍要用的功能在上面建起來,已經有了,不需要自己拿到一個Hadoop還得花很多開發的力量,才能做到很簡單去做的事情。在這幾個部分,我們加起來是我們的BigInsights,這本身在Hadoop的平台,我們加了很多其他的附加值的東西,就變成BigInsights。我們的産品不是Hadoop,我們的産品是BigInsights。在Hadoop開源的平台,我們增加了這些東西,等于我們以前也做過同樣的事情,比如AIX就是用Unix的平台開發出來的,為什麼AIX現在變成了一個主流,在Power Systems上?因為IBM已經很有經驗把開源的東西變成商業化的東西,我們根據過去的經驗來做這些事情。

  Hadoop的平台大部分都是跑在x86的平台,但是在IBM來說,我們也有另外一個平台是根據Power Systems,Power Linux平台也是可以跑BigInsights。我們在華東區有一個的平台,IBM STG他們是提供了Power Linux。有一個好處是,Power的處理能力比x86要高,不單隻是用Hadoop平台并行處理,而且每一台機器本身的處理能夠更高,IBM也有這樣優化的地方,不單隻是在x86,還有在Power Linux上平台上跑BigInsights,Big Data的解決方案。

<b>  提問:x86的大資料處理平台跟現在的BigInsights整個大的藍圖相比還缺哪些方面?</b>

<b>  盧偉權:</b>基本上我們在Hadoop上加了這些東西,不單是BigInsights,就是Hadoop平台靜态的分析,我們跟其他廠商最大的一個分别是他們是沒有流資料處理的能力,而大資料的其中一個就是速度,等于是資料流,量很大,速度很快,而且能夠處理大資料的這一個特點,其他的廠家隻是用Hadoop的平台上搭建一些東西。我個人看x86隻是一個平台,上面跑什麼東西就決定你達到哪一個平台是怎麼樣,這個平台決定整個大資料的平台怎麼樣,硬體是一個很大的架構,甚至有人說,硬體已經是可驗檢結構機器化的,是在x86平台和大資料的平台上都很普遍的,主要是看管理Hadoop和BigInsights的平台管理工具是不是很全,而不是硬體的問題。

 <b> 蔔曉軍:</b>我延展一下IBM的差異化在哪裡?除了剛才盧總講的問題以外,我們剛才講了“3A5步”,IBM有完整的能力到分析和行動,包括企業營銷等等,基于我們技術分析的内容,真的能夠去指導行動,幫助我們做更好的決策,這個完整的能力并不是每一個廠家能有的。剛才說軟體,IBM還有兩條很重要的事業線,一個是服務部門,一個是硬體部門。軟體在硬體上的表現,我們針對Hadoop Systems還有一個增強型的系統,這是和我們部門聯合研發的,我們不僅支援x,也支援P上的Linux平台,要保護很多客戶在P上已有的投資,有IBM這麼強的業務咨詢的能力,剛才大家問Big Data在企業裡解決什麼樣的問題,其實IBM有業務咨詢部門,是可以幫助我們的客戶共同去看到說大資料在整個企業資訊架構下到底擔當什麼角色,解決哪些業務問題,現實當中軟體部門和服務部門形成一個特别的團隊,其實在一些大的客戶這邊已經開展類似大資料的業務,我們叫做業務價值發現的一些workshop,在我們蕭總的客戶當中已經開展這樣的合作,把IBM端到端的,服務、軟體、硬體整體的能力帶給客戶。

<b>  陳劍:</b>IBM的平台是很寬泛的,很多我們都支援。另外,IBM很多解決方案是開放性的。談到大資料,大家談到Hadoop,IBM不僅支援标準的Hadoop,也提供對一些比較流行的Hadoop的Distribution的支援,現在我們比較準備好的是Cloudera,這是第三方的。如果客戶他們即使是之前,因為很多玩開源的一些公司也好,稍微小一點的企業也好,他們可能都是之前做過一些嘗試,如果是基于開源的,比如原來已經用了Cloudera這樣的Distribution,可以非常平滑的移動到IBM企業級的Hadoop的平台上,跟某些廠商不一樣,他們可能是你的軟體硬體,你隻能用他們家的,這是我們IBM跟某些友商不太一樣的地方。

行業專家全方位全角度闡述大資料

<b>  蕭丁瑞:</b>制造業可以這麼分,從業務形态和生産形态關注點會不一樣。從業務形态來看,目前以現有的狀況會對大資料這一塊有很大感興趣的業務部門和客戶服務部門,甚至于我們進的産品設計部門,會針對消費電子和消費市場這一塊,才有那麼多的資料來源。二是從生産面來看,我們一般說組裝業和生産是不一樣的,大部分的組裝業沒有那麼多的大資料,因為組裝就是比較單純的組裝,但是連續性生産就很多了。光IBM本身自己,我們的半導體的廠,本身就是最好的示範,我們用的所有整套大資料的解決方案,半導體最重要的是機台,機台的速度很快,相對的半導體裡面有很多pattern,這些東西是非結構性的,怎麼把這兩個結合起來找到我們講的半導體很重要的一點是提供它的良率,機台使用和良率都很重要。還有機台的維護和預測,如果能夠減少維護的時間,相對于生産率更高,這都是我們很成功的案例。目前半導體業裡,我們也見過幾個案例,就是用了我們成功的案例,我們要從産業别和制造别來分。

  還有石油石化行業也是一樣,從勘探、制造、生産等等,其實每一段産生的都很多,甚至講到工業安全,在石油石化上是很重要的,尤其像管道也好,整個工廠也好。我們需要有很多實驗室去抓這些資訊,這個量都是很大的。再比對我們的維修手冊,把這個做得很好,減少一些事件。

作者: 李偉

來源: IT168

原文标題:行業專家全方位全角度闡述大資料

繼續閱讀