世界各地無數的組織,他們使用的資料現在日益龐大而複雜,使用傳統的資料處理程式已無法再進行優化分析及獲得洞察。而這正是的新一代的大資料應用程式要解決的問題。近期Apache軟體基金會(ASF)又将一批有趣的開源大資料項目畢業為的Apache頂級項目。這意味着,這些項目将能夠得到積極的發展和社群的大力支援。
大多數人都聽過的Apache Spark,一個針對Streaming, SQL,機器學習和圖形處理的内置子產品的大資料處理架構。 IBM和其他公司正在投入數十億美金開發資金到Spark項目,NASA和SETI Institute正在利用Spark的機器學習能力,合作分析TB數量級的外太空無線信号資料,尋找外星智能生命存在的形式。
然而,其他幾個最近被Apache擢升為頂級的大資料項目也值得您額外關注。事實上,他們中的一些所建構和發展的生态系統,很可能将對Spark發起挑戰。結合本周舉行的“ApacheCon北美峰會”(ApacheCon North America conference)和“Apache大資料峰會”(Apache: Big Data events),本文将歸納那些你應該知道的Apache的大資料項目。
下面是六個正在冉冉興起的項目:
Kylin
Apache近日宣布其Kylin項目,一個始于eBay的開源大資料項目在eBay已經畢業為頂級項目。Kylin是一個開源的分布式分析引擎,旨在提供在Apache Hadoop之上SQL接口的多元分析引擎(OLAP),可支援超大資料集。它已廣泛在eBay和其他一些組織中被采用。
“Apache Kylin的孵化之旅已經證明Apache軟體基金會(ASF)開源治理的價值,以及圍繞項目建設開源社群和生态系統的強大力量。”Apache Kylin副總裁Luke Han(韓卿)說: “我們的開源社群是世界上最大的本土開發者參與的社群,完全依照The Apache Way的社群運作方式。”
作為一個領先的基于Hadoop的OLAP解決方案,Apache Kylin填補了大資料與人使用之間的空白,他補充說道:“使分析人員,最終使用者,開發者和資料愛好者能夠在大規模資料集上進行亞秒級延遲的互動式分析。基于這些能力,Apache Kylin将商業智能(BI)帶回Apache Hadoop以釋放出大資料的價值。”
Lens
Apache近日宣布,Apache Lens,一個開源的大資料和分析工具,也已經從Apache孵化器畢業成為一個頂級項目(TLP)。根據公告:“Apache Lens是一個統一的分析平台,以統一視圖形式為分析查詢提供了優化的執行環境。Apache Lens旨在通過提供一個跨多個資料存儲的單一視圖來橫向打通資料分析中遇到的異構單元。”
“通過在資料之上提供一個線上的分析處理(OLAP)模型,Lens無縫地內建Hadoop和傳統資料倉庫,提供統一的外部接口。它同時提供系統中查詢曆史、統計和查詢的生命周期管理。”
“在ASF中孵化Apache Lens是一段神奇的經曆” Apache Lens的副總裁Amareshwari Sriramadasu說:“Apache Lens從最終使用者角度出發,為大資料分析解決了一個難題,它使得業務使用者、分析師、開發者和其他使用者,可以輕松的進行複雜的資料分析,而不需要了解底層的資料架構。”
Ignite
ASF還宣布Apache Ingite成為了一個頂級項目,一個通過開源方式建立的記憶體資料網絡。Apache Ignite是一個高性能的整合的分布式的記憶體資料網絡,實作在大規模數組上進行實時的計算和互動。Apache社群成員認為“可能比傳統的硬碟或閃存技術要快幾個數量級。它的設計使現有的以及各種新的應用可以輕松的部署在一個價格适宜的行業标準的大規模并行架構的硬體上。”
Brooklyn
ASF宣布Apache Brooklyn已成為一個TLP(頂級項目)。“這标志着該項目的社群和産品在ASF優異的流程和原則下治理有方。”Brooklyn是用于整合跨多個資料中心的應用程式的藍圖和管理平台,并适用于各種雲端軟體。
Brooklyn 宣稱:“随着現代應用程式正在由更多個部件組成,微服務架構又逐漸興起,部署以及已部署應用的演化越來越成為一個難題。Apache Brooklyn的藍圖提供了一個清晰簡潔的方式,在部署到公共雲或私有基礎設施之前,來規範應用,及它的元件、配置群組件之間的關聯性。這種建立在自主計算理論的基礎上的政策管理,會不斷地評估運作應用程式,修改以保持它的運作健康和名額優化,例如成本和響應能力。”
Brooklyn已經在一些知名企業中應用。雲服務商Canopy和Virtustream已在Brooklyn上提供産品。IBM也已經大規模的使用Brooklyn,以将大量工作從AWS遷移到IBM Softlayer之上。
Apex
今年4月,Apache軟體基金會将Apex項目提升至頂級項目。它被稱為“應用在Apache Hadoop生态系統的大規模,高吞吐量,低延時,能容錯的,統一的大資料流和批量處理平台。” Apex與Apache Hadoop資源管理平台YARN,一起作用于Hadoop工作叢集。
Tajo
最後,Apache Tajo,一個領先的Apache Hadoop之上的開源資料倉庫系統,成為另一個你需要了解的大資料項目。Apache宣稱Tajo提供了針對Hadoop、第三方資料庫以及商用BI工具的快速抓取能力。
顯然,盡管Apache Spark吸引了大量的眼球,但它不是唯一需要你關注的來自Apache的大資料工具。今年接下去,Apache也許會将更多引人注目的大資料項目更新為頂級項目,這些項目必将由此獲得更好的開發資源和更多的受益。