天天看點

幹貨|盤點國内真正的大資料分析産品

本文來自網易雲社群。

下面簡單介紹幾款比較有代表性的大資料分析平台:

1、 Cloudera

作為全球認知度最高的大資料平台公司,國内90%的版本基本都是在CDH的基礎上封裝的,對社群的掌控力最大。與國際軟體供應商聯手,産品涵蓋大資料平台、ETL、進階分析、資料可視化等各個方面。Cloudera提供一個可擴充、靈活、內建的平台,可用來友善的管理您的企業中快速增長的多種多樣的資料,進而部署和管理Hadoop和相關項目、操作和分析您的資料以及保護資料的安全。Cloudera Manager是一個複雜的應用程式,用于部署、管理、監控CDH部署并診斷問題,Cloudera Manager提供Admin Console,這是一種基于Web的使用者界面,是您的企業資料管理簡單而直接,它還包括Cloudera Manager API,可用來擷取叢集運作狀況資訊和度量以及配置Cloudera Manager。

還有比如像Statistica,一個整合資料分析、圖表繪制、資料庫管理與自訂應用發展系統環境的專業軟體,不僅提供使用者統計、繪圖與資料管理程式等一般目的的需求,更提供特定需求所需的資料分析方法;Actian分析平台具備高可用性能,可自由部署在私有雲或者混合雲平台,授權模式靈活、即席查詢分析等特定,特别大大的擴充了hadoop的性能限制,幫助企業将大資料轉換為商業價值;Informatics平台是一套完善的技術,可支援多項複雜的企業級資料內建計劃,包括企業資料內建、大資料、資料品質控制、主資料管理、B2B Data Exchange、應用程式資訊生命周期管理、複雜事件處理、超級消息和雲資料內建等。

2、 星環Transwarp

基于hadoop生态系統的大資料平台公司,國内唯一入選過Gartner魔力象限的大資料平台公司,對hadoop不穩定的部分進行了優化,功能上進行了細化,為企業提供hadoop大資料引擎及資料庫工具。底層基于spark,支援sql on hadoop,支援sql2003标準文法,支援oracle,DB2,Teradata的存儲過程,支援ACID分布式事務處理,支援高效記憶體、SSD計算,以及支援可視化權限管理,計算資源配置,使用者安全授權管理以及行級安全控制。放上一張Transwarp Data Hub的架構圖:

幹貨|盤點國内真正的大資料分析産品

3、 阿裡數加

阿裡雲釋出的一站式大資料平台,覆寫了企業數倉、商業智能、機器學習、資料可視化等領域,可以提供資料采集、資料深度融合、計算和挖掘服務,将計算的幾個通過可視化工具進行個性化的資料分析和展現,圖形展示和客戶感覺良好,但是需要捆綁阿裡雲才能使用,部分體驗功能一般,需要有一定的知識基礎。maxcompute(原名ODPS)是數加底層的計算引擎,有兩個次元可以看這個計算引擎的性能,一個是6小時處理100PB的資料,相當于1億部高清電影,另外一個是單叢集規模過萬台,并支援多叢集聯合計算。

數加平台由三部分組成,開發套件、解決方案以及資料市場。開發套件包括資料開發套件和應用開發套件。在資料開發套件中,主要包含,大資料開發:內建可視化開發環境,可實作資料開發、排程、部署、運維及數倉設計、資料品質管理等功能;BI報表工具:海量資料的實時線上分析、豐富的可視化效果;機器學習工具:集資料處理、特征工程、模組化、離線預測為一體的機器學習平台。解決方案:數加針對不同的業務場景,基于平台提供的開發套件與行業服務商的能力,将多方産品串聯,提供行業解決方案。放上一張基于MaxCompute的生态系統圖:

幹貨|盤點國内真正的大資料分析産品

4、 華為FusionInsight

基于Apache進行功能增強的企業級大資料存儲、查詢和分析的統一平台。完全開放的大資料平台,可運作在開放的x86架構伺服器上,它以海量資料處理引擎和實時資料處理引擎為核心,針對金融、營運商等資料密集型行業的運作維護、應用開發等需求,打造了靈活、智慧、可信的平台軟體。

包含了開放社群的主要軟體及其生态圈中的主流元件,并進行了大量優化,FusionInsight Stream是FusionInsight大資料分析平台中的實時資料處理引擎,以實踐驅動模式處理實時資料的大資料技術,解決高速事件流的實時計算問題,可以在金融、通信、交通、公共安全等領域發揮流式事件實時處理優勢,提供實時分析、實時決策能力。附上一張該平台的架構圖:

幹貨|盤點國内真正的大資料分析産品

其一大特點是智慧,具備百萬的模組化架構,精準洞察使用者行為與特征,支援使用者資料進行超百萬次元的資料模組化,深刻洞察使用者的行為和特征,為企業的商業決策,以及新業務商機的挖掘,提供更加科學、全面的業務支援。

5、網易猛犸

網易猛犸大資料平台是一站式的大資料應用開發和資料管理平台,包括大資料開發套件和hadoop發行版兩部分。大資料開發套件主要包含資料開發、任務運維、自助分析、資料管理、項目管理及多租戶管理等。大資料開發套件将資料開發、資料分析、資料ETL等資料科學工作通過工作流的方式有效地串聯起來,提高了資料開發工程師和資料分析工程師的工作效率。Hadoop發行版涵蓋了網易大資料所有底層平台元件,包括自研元件、基于開源改造的元件。豐富而全面的元件,提供完善的平台能力,使其能輕易地建構不同領域的解決方案,滿足不同類型的業務需求。

附上該平台架構圖:

幹貨|盤點國内真正的大資料分析産品

猛犸平台提供多租戶支援,不同租戶之間互相隔離。底層使用Kerberos認證,實作了資料的安全性和隔離性。除了認證系統,利用Ranger實作了細粒度權限控制,保證了各個租戶隻能檢視授權通路的庫、表或字段。此外,平台提供審計功能,通過對使用者平台行為的記錄、分析和彙報,用來幫助事後生成合規報告、事故追根溯源,提高平台安全性。

平台基于業務場景設計的使用者操作面提高了系統的易用性,結束了平台指令行運維的繁瑣狀态。資料開發工程師和資料分析師通過簡單拖拽和表單填寫即可完成資料科學相關工作。

在大資料開發套件的資料開發子產品,提供資料庫傳輸、SQL、Spark、OLAP Cube、MapReduce及Script各種類型任務的靈活開發界面,任務開發者通過拖拽建立任務,友善地進行資料內建、資料ETL、資料分析等資料科學工作。以資料庫傳輸為例,使用者隻需将“資料庫傳輸”元件拖拽到畫布上并輕按兩下,通過下拉框選擇和手動輸入填寫表單,快速完成資料傳輸的任務開發。

幹貨|盤點國内真正的大資料分析産品
幹貨|盤點國内真正的大資料分析産品

此外,企業還能根據自身業務場景按需進行任務排程管理,使用者可以設定任務的執行順序、優先級以及執行周期。針對任務失敗的情況,設定重試次數、重試間隔及報警規則。最後,任務産生的結果可以對接主流BI系統進行資料可視化分析,或者直接回流到線上系統支撐輔助線上業務。

網易猛犸大資料平台作為一站式的應用開發和資料管理平台,通過大資料開發套件,将資料開發、任務運維、自助分析、資料管理、項目管理等工作通過工作流的方式有效的串聯起來,提供靈活易用的使用者操作界面,降低了大資料分析的使用門檻,顯著的提高了資料開發工程師和資料分析師的工作效率。猛犸大資料平台在電商、音樂、雲課堂學習、企業工業制造等領域已廣泛應用,基于持續的需求驅動,通過多行業的業務驗證,同時豐富全面的元件,提供完善的平台能力,滿足不同類型的業務需求。

在對資料的分析處理過程中,資料的安全重要性不言而喻。猛犸平台底層使用Kerberos認證,實作了資料的安全性和隔離性。除了認證系統,利用Ranger實作了細粒度的權限控制,保證了各個租戶隻能檢視授權通路的表、庫和字段。不僅如此,平台還提供審計功能,通過對使用者平台行為進行記錄、分析和彙報,用來幫助對事故追根溯源,提高了平台的安全性。

相關閱讀:猛犸機器學習開發實踐

大資料技術在金融行業有哪些應用前景?

原文:國内真正的大資料分析産品有哪些呢?隻求幹貨爆料,不要廣告商!

繼續閱讀