Hadoop工具引发的改变和提升：让数据仓库迁移更轻松

从高成本数据仓库将任务卸载有时被看做是hadoop商用集群的首要目标。迁移提取、转换、加载(etl)、查询以及报告工作并不能显著改变商业模式，但它可能会抑制数据仓库的增长和成本。

但是，即便进入hadoop时代已经有些年头了，将任务迁移至分布式平台并非易事。能够找出哪些任务在不给大量开发人员带来麻烦的情况下进行迁移，有助于数据管理人员做出最佳选择。

一款来自cloudera公司的hadoop工具navigator optimizer可能是个不错的选择。它源于该公司在2015年收购的xplain.io，这家公司试图将某些与sql类似的数据库优化功能引入hadoop。该产品于今夏开始正式供应。

“该工具可以让人们查看那些正在其他平台上运行的查询，并可以查看它们将会如何在我们的hadoop环境中表现，” conversant的一名软件工程经理peter wojciechowski说，而conversant是一家数字营销公司，它通过对大量数据的处理来呈现个性化的广告。

conversant在查询中的表现

conversant最初是将hadoop用作数据的第一着陆点，之后通过pivotal greenplum数据仓库进行处理以用于分析。团队使用navigator已经能够将某些任务迁移至hadoop和apache hive数据仓库以及impala sql查询环境。

“如今，核心的etl和某些大型处理工作是在一个hadoop集群上进行的，”wojciechowski说，高度迭代的处理工作对于hadoop来说是不错的目标，但greenplum并未被取代。在他的公司里，greenplum仍担当着重要的分析责任。但现在，其使用则更为精炼。

wojciechowski说，“以前，greenplum负责了所有的工作负载，但并不是所有工作负载都与其契合。现在，有了该工具，我们就能更加游刃有余，例如，我们可以判断什么才是适合在hive中运行的。”

通过使用optimizer，wojciechowski和他的团队能够说出在hive和impla中查询将会如何更好的执行，这就如同是接受在新环境中查询是如何执行的指导是一样的。hadoop工具在生产中还有着进一步的应用。optimizer与navigator协同工作会帮助你判断如何将工作负载查询进行分组，这样就能发现更多的重复并更有效的对集群进行利用，”他说。

像navigator optimizer之类的技术有助于揭示数据连接，这是一个sql常见的特性，而它会对hadoop造成阻碍，451 research的分析师james curtis如是说。“navigator会在将任务迁移至impala或hive之前对已有工作进行分析，并对需要重做的连接数量进行估计，”他说。

对于该工具在任务迁移中的作用他表示认同，但他强调对查询的优化远比仅用于迁移有着更广泛的使用。“对于那些拥有数以千计查询的公司来说，优化查询并不是琐碎的工作，”curtis说。

改变和提升

像cloudera navigator套件之类产品的可用性可以覆盖包括所有最困难迁移任务中的一项：即将主框架数据迁移至hadoop生态系统。

为此，主框架和hadoop数据转换公司syncsort表示，它正在和cloudera合作，通过将navigator连接至其工具来追踪传统来源的数据沿袭以改善数据治理。这些传统来源不仅限于主框架，而是包括运行在中端系统上的数据仓库。

对于将关系型数据仓库任务迁移至hadoop来说，cloudera并不是可以提供工具唯一厂商，这一领域是十分活跃的。

对于他们来说，独立的hadoop分销竞争对手hortonworks和mapr technologies inc.会提供相关的hadoop工具，包括基于apache calcite的sql优化工具，而apache calcite是一款包括了一个sql解析器和查询规划器的开源项目，而它刚刚迎来它的第一个生日。

而且，数据管理服务公司bitwise最近推出了hydrograph，这是一款旨在简化卸载etl工作负载到hadoop和其他大数据框架的工具。bitwise的软件是与客户capital one一起开发的，它基于的开发环境使用了xml接口，因此任务可以迁移至不同的hadoop框架，例如从mapreduce到tez，只需要少量重新配置。

如果这些hadoop工具能够让迁移设计更上一层楼并不断探索试错，则会改善对hadoop的提升。对于企业中hadoop和它的生态系统组件来说，在平台上高效地获取数据仓库工作仍是一项重要步骤。

本文作者：佚名

来源：51cto

Hadoop工具引发的改变和提升：让数据仓库迁移更轻松

继续阅读

Windows下配置Apache的SSL服务

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

MySQL的4种隔离级别？出现问题

User Defined Hadoop DataType

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

Ambari介绍和架构原理

NOSQL安全攻击

mybatis_入门程序Mybatis入门

登录plsql 报错 the account is locked --用户被锁

sqlServer根据经纬查距离

SequoiaDB巨杉数据库C++驱动概述