本文主要是介绍DataX3.0的安装及小试,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
DataX安装及小试
一. DataX 3.0 概览
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
- 设计理念
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
二.安装部署
1.下载压缩包
下载页面地址:https://github.com/alibaba/DataX 在页面中【Quick Start】--->【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz。解压后{datax}目录下有{bin conf job lib log log_perf plugin script tmp}几个目录。
2.安装
将下载后的压缩包直接解压后可用,前提是对应的java及python环境满足要求。
System Requirements:
- Linux
- JDK(1.8以上,推荐1.8)
- Python(推荐Python2.6.X)一定要为python2,因为后面执行datax.py的时候,里面的python的print会执行不了,导致运行不成功,会提示你print语法要加括号,python2中加不加都行 python3中必须要加,否则报语法错。center os 6/7 自带python2.6.6。
- Apache Maven 3.x (Compile DataX)
工具部署
方法一、直接下载DataX工具包:DataX下载地址
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
$ cd {YOUR_DATAX_HOME}/bin $ python datax.py {YOUR_JOB.json}
自检脚本: python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json.【安装后即可运行检测】
方法二、下载DataX源码,自己编译:DataX源码
(1)、下载DataX源码:
$ git clone git@github.com:alibaba/DataX.git
(2)、通过maven打包:[会遇到依赖包问题,odps是阿里巴巴的内部包,不使用的话不编译odps即可]
$ cd {DataX_source_code_home} $ mvn -U clean package assembly:assembly -Dmaven.test.skip=true
打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:
$ cd {DataX_source_code_home} $ ls ./target/datax/datax/ bin conf job lib log log_perf plugin script tmp
三.小试
从mysql读取数据打印到控制台
{"job": {"setting": {"speed": {"channel": 3},"errorLimit": {"record": 0,"percentage": 0.02}},"content": [{"reader": {"name": "mysqlreader","parameter": {"username": "root","password": "root","column": ["*"],"splitPk": "id","connection": [{"table": ["输入测试的tableName"],"jdbcUrl": ["jdbc:mysql://127.0.0.1:3306/database"]}]}},"writer": {"name": "streamwriter","parameter": {"print":true}}}]}
}
测试步骤:
- 到datax的目录下创建配置文件
cd {DataX_source_code_home}/job
vim datax.json //写入配置信息
- 执行命令
python {DataX_source_code_home}/bin/datax.py {DataX_source_code_home}/job/datax.json
其他插件的配置过程,后续会继续补充。
参考:https://github.com/alibaba/DataX
这篇关于DataX3.0的安装及小试的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!