天天看点

step-by-step通过数据集成同步数据到HBase

step-by-step通过数据集成同步数据到HBase
step-by-step通过数据集成同步数据到HBase

购买的资源不必和hbase在同一地区。如果已经创建过项目,可以忽略这一步。

出于安全方面的考虑,目前hbase导入数据只支持本地模式,所以需要用户先申请ecs并将esc添加到数据同步的资源组用于执行同步任务。

在hbase所在region的任意zone购买一台ecs,然后设置hbase的白名单。

注意:

1、项目管理员进入进入 大数据开发套件-调度资源列表,点击 新增调度资源,填写新增的调度资源名称,如下图所示:

step-by-step通过数据集成同步数据到HBase

2、添加调度资源后,在弹窗界面内点击新建调度资源操作栏中的 服务器管理,进入服务器添加页面,将购买的 ecs 云服务器添加到资源组,如下图所示:

step-by-step通过数据集成同步数据到HBase

3、点击增加服务器;

step-by-step通过数据集成同步数据到HBase

网络类型:选择经典网络;

服务器名称:获取方式:登录 ecs,执行 hostname 命令,取返回值;

机器 ip:输入专有网络 ip。

4、在调度资源管理页面,点击“服务器初始化”,然后按照弹出的提示在ecs上进行操作。

step-by-step通过数据集成同步数据到HBase

执行完安装命令后,可以看到服务器状态已显示为“正常”。

hbase目前不支持向导模式,所以需要创建脚本模式任务并修改脚本中的插件配置。

1、以开发者身份进入 阿里云数加平台>大数据开发套件>管理控制台,点击“项目列表”下对应项目操作栏中的 进入工作区 ;

2、点击顶部菜单栏中的 数据集成 中左侧导航栏的 同步任务 ;

3、点击界面中的 “脚本模式”;

step-by-step通过数据集成同步数据到HBase

4、在弹出的“导入模板”中选择自己需要的“来源类型”和“目标类型”,如下图所示:

step-by-step通过数据集成同步数据到HBase

云hbase的版本是1.1,所以目标类型选择“hbase11x”,我们的例子中,源也是云hbase,所以源类型也选择“hbase11x”。

5、点确定后,会按照模版生成默认的配置,先保存。

step-by-step通过数据集成同步数据到HBase

reader需要改如下几个地方:

(1)column和table按照我们实际情况修改。

(2)我们同步全量数据,所以把range和maxversion删掉。

(3)hbaseconfig中,hbase.rootdir是不需要的,可以删掉。hbase.zookeeper.quorum可以在hbase实例的管理控制台查看。

step-by-step通过数据集成同步数据到HBase

writer需要修改如下几个地方:

(1)rowkeycolumn。在我们的例子中,源表的rowkey导入过来直接做rowkey,所以把rowkeycolumn里面默认生成的:

删掉。

(2)column和table按照实际情况修改。注意在运行同步任务前要确保已经建好目标表和列族。

(3)versioncolumn在我们的例子里不需要,删掉。

(4)hbaseconfig和源插件类似,把hbase.rootdir删掉,hbase.zookeeper.quorum改成目标hbase的zk地址。

我们的例子中,最终的插件配置如下:

修改完成后,保存。点击“提交”。

step-by-step通过数据集成同步数据到HBase

提交任务页面“一次性调度”选不了,如果我们不希望任务周期性运行的话,可以把时间改成当天。

1、进入 大数据开发套件-运维中心-任务管理 页面,点击 列表;

step-by-step通过数据集成同步数据到HBase

2、选择同步任务,点击 修改资源组;

step-by-step通过数据集成同步数据到HBase

3、选择我们在第二步创建的资源组,点击 确认。

在任务管理页面,点击 操作-补数据。然后等待任务完成。

step-by-step通过数据集成同步数据到HBase

任务执行成功,我们在目标hbase里面已经看到有数据了。