冉起新秀：Apache六大尚未广为人知的大数据项目

世界各地无数的组织，他们使用的数据现在日益庞大而复杂，使用传统的数据处理程序已无法再进行优化分析及获得洞察。而这正是的新一代的大数据应用程序要解决的问题。近期Apache软件基金会（ASF）又将一批有趣的开源大数据项目毕业为的Apache顶级项目。这意味着，这些项目将能够得到积极的发展和社区的大力支持。

大多数人都听过的Apache Spark，一个针对Streaming, SQL，机器学习和图形处理的内置模块的大数据处理架构。 IBM和其他公司正在投入数十亿美金开发资金到Spark项目，NASA和SETI Institute正在利用Spark的机器学习能力，合作分析TB数量级的外太空无线信号数据，寻找外星智能生命存在的形式。

然而，其他几个最近被Apache擢升为顶级的大数据项目也值得您额外关注。事实上，他们中的一些所构建和发展的生态系统，很可能将对Spark发起挑战。结合本周举行的“ApacheCon北美峰会”（ApacheCon North America conference）和“Apache大数据峰会”（Apache: Big Data events），本文将归纳那些你应该知道的Apache的大数据项目。

下面是六个正在冉冉兴起的项目：

Kylin

Apache近日宣布其Kylin项目，一个始于eBay的开源大数据项目在eBay已经毕业为顶级项目。Kylin是一个开源的分布式分析引擎，旨在提供在Apache Hadoop之上SQL接口的多维分析引擎（OLAP），可支持超大数据集。它已广泛在eBay和其他一些组织中被采用。

“Apache Kylin的孵化之旅已经证明Apache软件基金会（ASF）开源治理的价值，以及围绕项目建设开源社区和生态系统的强大力量。”Apache Kylin副总裁Luke Han（韩卿）说： “我们的开源社区是世界上最大的本土开发者参与的社区，完全依照The Apache Way的社区运作方式。”

作为一个领先的基于Hadoop的OLAP解决方案，Apache Kylin填补了大数据与人使用之间的空白，他补充说道：“使分析人员，最终用户，开发者和数据爱好者能够在大规模数据集上进行亚秒级延迟的交互式分析。基于这些能力，Apache Kylin将商业智能（BI）带回Apache Hadoop以释放出大数据的价值。”

Lens

Apache近日宣布，Apache Lens，一个开源的大数据和分析工具，也已经从Apache孵化器毕业成为一个顶级项目（TLP）。根据公告：“Apache Lens是一个统一的分析平台，以统一视图形式为分析查询提供了优化的执行环境。Apache Lens旨在通过提供一个跨多个数据存储的单一视图来横向打通数据分析中遇到的异构单元。”

“通过在数据之上提供一个在线的分析处理（OLAP）模型，Lens无缝地集成Hadoop和传统数据仓库，提供统一的外部接口。它同时提供系统中查询历史、统计和查询的生命周期管理。”

“在ASF中孵化Apache Lens是一段神奇的经历” Apache Lens的副总裁Amareshwari Sriramadasu说：“Apache Lens从最终用户角度出发，为大数据分析解决了一个难题，它使得业务用户、分析师、开发者和其他用户，可以轻松的进行复杂的数据分析，而不需要了解底层的数据架构。”

Ignite

ASF还宣布Apache Ingite成为了一个顶级项目，一个通过开源方式建立的内存数据网络。Apache Ignite是一个高性能的整合的分布式的内存数据网络，实现在大规模数组上进行实时的计算和交互。Apache社区成员认为“可能比传统的硬盘或闪存技术要快几个数量级。它的设计使现有的以及各种新的应用可以轻松的部署在一个价格适宜的行业标准的大规模并行架构的硬件上。”

Brooklyn

ASF宣布Apache Brooklyn已成为一个TLP（顶级项目）。“这标志着该项目的社区和产品在ASF优异的流程和原则下治理有方。”Brooklyn是用于整合跨多个数据中心的应用程序的蓝图和管理平台，并适用于各种云端软件。

Brooklyn 宣称：“随着现代应用程序正在由更多个部件组成，微服务架构又逐渐兴起，部署以及已部署应用的演化越来越成为一个难题。Apache Brooklyn的蓝图提供了一个清晰简洁的方式，在部署到公共云或私有基础设施之前，来规范应用，及它的组件、配置和组件之间的关联性。这种建立在自主计算理论的基础上的策略管理，会不断地评估运行应用程序，修改以保持它的运行健康和指标优化，例如成本和响应能力。”

Brooklyn已经在一些知名企业中应用。云服务商Canopy和Virtustream已在Brooklyn上提供产品。IBM也已经大规模的使用Brooklyn，以将大量工作从AWS迁移到IBM Softlayer之上。

Apex

今年4月，Apache软件基金会将Apex项目提升至顶级项目。它被称为“应用在Apache Hadoop生态系统的大规模，高吞吐量，低延时，能容错的，统一的大数据流和批量处理平台。” Apex与Apache Hadoop资源管理平台YARN，一起作用于Hadoop工作集群。

Tajo

最后，Apache Tajo，一个领先的Apache Hadoop之上的开源数据仓库系统，成为另一个你需要了解的大数据项目。Apache宣称Tajo提供了针对Hadoop、第三方数据库以及商用BI工具的快速抓取能力。

显然，尽管Apache Spark吸引了大量的眼球，但它不是唯一需要你关注的来自Apache的大数据工具。今年接下去，Apache也许会将更多引人注目的大数据项目升级为顶级项目，这些项目必将由此获得更好的开发资源和更多的受益。