DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
环境要求
– JDK(1.8以上,推荐1.8)
– Python(推荐Python2.6.X)
下载解压
下载地址
源码地址
下载后直接解压,解压后目录如下
进入 bin 目录
使用方法
直接执行如下命令即可
test.json 为配置文件,标明了 数据源 和 迁移后的路径
datax json 配置示例
本地到本地
更多示例见参考文档,或者查阅官网,即 “了解更多” 章节
1. 默认支持的是 python2,如果想用 python3,需要把 datax.py 等文件的代码改成 python3 语法,不过貌似只是 print 加 括号就行了
2. 数据库中的数据中文乱码解决:在 json 文件中 jdbcUrl 项加上:?characterEncoding=utf8
3. 运行 datax.py 后出现乱码,在 cmd 中 输入 CHCP 65001 【仅适用于 windows】
阿里云开源离线同步工具DataX3.0介绍
未完待续...
参考资料:
https://zhuanlan.zhihu.com/p/163710564 最简使用教程
javascript:void(0) dataX json配置 mysql2mysql、mysql到本地、HDFS打印到本地控制台、orcle打印到Linux
javascript:void(0) DataX的使用
发表于
2021-07-15 09:00
努力的孔子
阅读(0)
评论(0)
编辑
收藏
举报