天天看點

《智能資料時代:企業大資料戰略與實戰》一1.5 大資料環境下的處理分析工具

.本節書摘來自華章出版社《智能資料時代:企業大資料戰略與實戰》一書中的第1章,第1.5節,作者 talkingdata ,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

apache hadoop

apache hadoop(包括基于它的各種包裝,以下通稱hadoop)是一種開源工具,它提供了處理大資料的新平台。雖然hadoop已經存在一段時間了,但是越來越多的企業才剛剛開始利用其功能。hadoop平台旨在解決大量資料造成的問題,特别是包含複雜結構化資料和非結構化資料的混合資料,這些資料不适合放在表中。hadoop在需要深度分析和計算量大(如叢集和定位)的情況下運作良好。

對于尋求利用大資料的決策者而言,hadoop解決了與大資料相關的最常見的問題:以高效的方式存儲和通路大量資料。

hadoop的内在設計允許它作為一個平台運作,它能夠在大量的分布式機器上工作。考慮到這一點,很容易看出hadoop如何提供額外的價值:網絡管理者可以隻購買大量的商用伺服器,然後安裝并在每個伺服器上運作hadoop軟體。

hadoop有助于節省與大規模資料集有關的管理成本。從操作上看,組織的資料都加載在hadoop平台上,hadoop軟體把資料分解成可管理的部分,同時把資料擴充到各個伺服器上。分布式存儲的特性意味着無法在一個地方擷取全部的資料。hadoop還可以追蹤資料的存儲位置,而且能夠通過建立多個副本來維護資料。這就強化了資料存儲的彈性,因為即使某個伺服器掉線或損壞,資料也可以從已知的好的副本自動複制。

hadoop的優勢還表現在處理資料方面。例如,傳統的集中式資料庫系統存在很多限制,它需要一個連接配接到伺服器級系統的大磁盤驅動器和具有多個處理器的驅動器。在這種情況下,資料分析就會受限于磁盤性能和處理器的數量。

而在一個hadoop叢集中,每個伺服器都可以利用hadoop的能力在整個叢集中傳播工作和資料,進而參與資料的處理。換句話說,索引工作通過向叢集中的每個伺服器發送代碼,各個處理器就會對自己的内容進行檢索,然後結果會被統一回報回來。這在hadoop中稱為分布式計算,也就是代碼或操作被分布到所有處理器上,而最終的結果精簡成單一的集合。

hadoop在處理大規模資料集時表現良好,關鍵就在于它将資料分散到各個處理器上,而且它能并行運作所有處理器來處理複雜運算問題。

然而,冒險進入hadoop的世界并不是一種“即插即用”的體驗。為確定成功有一些先決條件:硬體要求和環境配置。首先要做的就是了解和定義分析過程。大多數首席資訊官都對商務分析(ba)和bi的流程相當熟悉,并能将其與最常用的過程層(提取、轉換和加載etl元件)相聯系,這對于建構ba或bi解決方案至關重要。大資料的分析和操作需要企業先標明所要處理的資料集,整合它們,然後進入etl程式進行處理。在這裡需要處理大量的資料,而且這些資料可能是結構化的、非結構化的,或者是來自于不同管道的資料資源,如社交網站、資料日志、門戶網站、移動通信裝置和傳感器等。

要真正實作hadoop的價值,需要把操作程式和注意事項結合起來(例如一個容錯的叢集架構,選用最貼合資料的計算方法,實作對資料集的并行計算或批處理),以及需要一個能夠支援資料從存儲到分析的企業級平台。

我們應該明白,并非所有的企業都需要用到大資料分析。我們也應該認真思考一下hadoop的能力和作用。hadoop并不能夠依靠自身來完成一切,企業在搭建hadoop平台之前,還要考慮除了hadoop之外需要什麼元件。

例如,企業運作hadoop平台需要以下元件:資料管理元件hdfs和hbase、程式架構元件mapreduce和oozie,開發元件pig和hive,以及開源pentaho。在這個小型試點項目中并不需要其他太多的硬體裝置。其中硬體必需品有:兩台多核伺服器、至少24gb的運作記憶體,以及一個2tb的磁盤。這就足以推動一個小型試點項目運作起來。

hadoop的有效運作和管理需要一定的專業知識和經驗,如果這方面準備不足的話,就需要資訊技術管理人員與能夠提供全面技術支援的服務供應商進行合作。這方面的專業知識對于項目安全尤為重要。hadoop、hdfs、hbase元件也需要安全防護。換句話說,進入hadoop程式的資料仍然需要保護,以免丢失。

整體來看,hadoop平台是對企業大資料分析實力進行檢測的關鍵。而在完成檢測之後,如何解決平台上大量的伺服器托管問題,也就成為大資料領域所要繼續探索的内容了。

smartdp

hadoop是資料挖掘的重要工具,但是它的使用對象是一線的資料挖掘者。對非資料分析企業而言,想要利用hadoop等開源軟體構築自身完整的資料分析體系比較複雜,一方面是因為相關資料的缺失,另一方面則是因為搭建完善的資料分析體系并不容易。此外由于聘請進階專家的成本過高,許多公司更樂意引進資料分析工具。諸如smartdp之類具有“自助服務”能力的大資料分析軟體的出現,為企業跨越資料鴻溝提供了一個新方式。

smartdp是基于智能資料應用探索商業價值的平台,它具有資料管理、資料工程和資料科學的能力,這三大能力是對資料分析平台最基礎也是最重要的要求。

在資料管理方面,smartdp為企業提供了中繼資料管理、資料存儲、資料治理、資料清洗、資料品質管理、人員權限管理與資料安全維護。資料的存儲與管理是企業資料運用的基礎,smartdp不僅能夠協助企業進行一方資料的管理,還能充當資料的連接配接器,打通資料平台和資料市場,拓展企業所需的第三方資料,為企業深度挖掘商業價值提供豐富的資料環境。

在資料工程方面,smartdp提供了多方資料接入、資料整合、資料營運、應用接入、資料分析、資料可視化呈現、資料結論和執行建議。内外部的資料整合為企業資料價值挖掘提供了豐富的原材料,但原材料隻有經過恰當的資料處理才能轉化為價值。smartdp的特點在于幫助使用者快速實作各類操作,找到最佳的資料價值挖掘方式。

《智能資料時代:企業大資料戰略與實戰》一1.5 大資料環境下的處理分析工具

資料科學是企業資料運用的重點與核心,smartdp為沒有資料管理平台和處理能力的使用者提供了處理資料的平台與應用。smartdp支援算法開發、算法接入、算法組合與算法自動調整(機器學習)。人工智能與開源算法的引進,為企業的資料應用與分析提供了多樣性的選擇與多水準的應用,滿足不同企業、不同層次的需求。

從企業内部資料的産生到産品落地後産生的效果,smartdp打通了企業資料的全鍊條,縮短了産業的價值鍊與決策鍊,許多之前必須通過外包才能解決的問題,現在可以利用内部資料分析平台完成決策,為企業提供直接可操作的結果。

從具體的産品形态看,目前smartdp以dmp為基礎,整合一方與三方資料,提供了如資料管家、使用者管家、脈策、酷屏、人際地圖等一系列産品應用。資料管家完成了資料的管理,從業務源頭開始,對企業内外部的資料進行梳理與整合;脈策結合使用者線上使用行為與線下活動軌迹,為房地産廠商提供最優的選址,幫助企業進行決策;酷屏能為企業提供簡潔清晰的可視化圖像,為使用者提供直覺展示;人際地圖從使用者的職、住、娛三個層面挖掘使用者的行為軌迹,分析使用者的消費水準與偏好,為企業營銷提供最直接的決策推薦資訊。而這些都隻是smartdp中的部分功能,外部算法與應用的接入意味着smartdp能夠實作更豐富的功能。