本文主要是介绍【数仓】Maxwell软件安装及配置,采集mysql数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
相关文章
- 【数仓】基本概念、知识普及、核心技术
- 【数仓】数据分层概念以及相关逻辑
- 【数仓】Hadoop软件安装及使用(集群配置)
- 【数仓】Hadoop集群配置常用参数说明
- 【数仓】zookeeper软件安装及集群配置
- 【数仓】kafka软件安装及集群配置
- 【数仓】flume软件安装及配置
- 【数仓】flume常见配置总结,以及示例
一、Maxwell有什么作用
Maxwell是一个读取MySQL binlogs(二进制日志)的应用程序,它的主要作用是将MySQL中的变更数据(包括insert、update、delete等操作)实时捕获,并将这些变更数据以JSON格式发送到Kafka、Kinesis、RabbitMQ等流数据处理平台。通过这种方式,Maxwell实现了数据的实时同步和变更捕获,为数据仓库提供了实时、准确的数据源。
具体来说,Maxwell可以支持SELECT * FROM table的方式进行全量数据初始化,同时还支持在主库发生failover后自动恢复binlog位置(GTID)。此外,Maxwell还可以对数据进行分区,解决数据倾斜问题,并支持database、table、column等级别的数据分区。在工作方式上,Maxwell伪装为MySQL的Slave,接收binlog events,然后根据schemas信息拼装,可以接受ddl、xid、row等各种event。
总的来说,在数仓中,Maxwell的作用主要是实时捕获MySQL中的变更数据,并将这些数据以流的形式发送到下游处理平台,从而实现数据的实时同步和处理。这对于需要实时分析、处理大量数据的场景(如实时报表、实时推荐系统等)非常有用。
二、环境准备
准备1台虚拟机
- Hadoop131:192.168.56.131
本例系统版本 CentOS-7.8,已安装jdk1.8
关闭防火墙
systemctl stop firewalld
三、Maxwell安装配置
1、Maxwell下载安装
这里使用的是
1.29.2
版本,1.30.0
以上的版本需要jdk11
# 下载解压
wget --no-check-certificate https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxwell-1.29.2.tar.gz
tar -xzvf maxwell-1.29.2.tar.gz
mv maxwell-1.29.2/ /data/maxwell/
2、开启mysql Binlog模式
在 MySQL 8.0 中,要开启二进制日志(binlog),你需要在 MySQL 的配置文件(my.ini
或 my.cnf
)中设置相应的选项。以下是如何开启 binlog 的步骤:
-
找到配置文件:首先,找到 MySQL 的配置文件。在 Windows 上,它通常位于 MySQL 安装目录下的
my.ini
文件中。在 Linux 或其他 Unix-like 系统上,它通常位于/etc/my.cnf
或/etc/mysql/my.cnf
。如果找不到这些文件,请根据你的安装方式和操作系统查找正确的位置。 -
编辑配置文件:使用文本编辑器打开配置文件。在
[mysqld]
部分下添加或修改以下行:[mysqld] log-bin=mysql-bin # 开启 binlog 并设置日志文件名前缀为 mysql-bin server-id=1 # 设置服务器 ID,确保每个 MySQL 实例的 server-id 是唯一的 binlog-format=row binlog-do-db=user # 指定需要记录二进制日志的数据库名 # 如果需要配置多个数据库,可以写多行,类似如下 # binlog-do-db=database1 # binlog-do-db=database2
log-bin
选项用于启用二进制日志并设置日志文件的名称前缀。server-id
是必需的,用于在复制环境中标识每个 MySQL 服务器实例。 -
重启 MySQL 服务:保存配置文件后,需要重启 MySQL 服务以使更改生效。根据你的操作系统和安装方式,使用相应的命令来重启 MySQL 服务。例如,在 Linux 上,你可能会使用
sudo systemctl restart mysql
或sudo service mysql restart
。在 Windows 上,你可以通过服务管理器重启 MySQL 服务。 -
验证 binlog 是否已开启:重启 MySQL 服务后,登录到 MySQL 服务器并运行以下 SQL 查询来验证 binlog 是否已开启:
SHOW VARIABLES LIKE 'log_bin';
如果返回的结果是
ON
,则表示 binlog 已成功开启。
请注意,开启 binlog 可能会增加一些磁盘 I/O 开销,因为所有更改数据的查询都会被记录到日志文件中。确保你的磁盘有足够的空间来存储这些日志文件,并定期监控和管理它们的大小和数量。
3、创建Maxwell所需的数据库和用户
# 创建数据库
CREATE DATABASE maxwell;# 创建 maxwell 用户并赋予其必要权限
CREATE USER 'maxwell'@'%' IDENTIFIED BY 'maxwell';
GRANT ALL ON maxwell.* to 'maxwell'@'%';
GRANT SELECT,REPLICATION CLIENT,REPLICATION SLAVE ON *.* TO 'maxwell'@'%'
4、配置Maxwell属性
重命名根目录(/data/maxwell)下的 config.properties.example,然后修改配置
mv config.properties.example config.properties
vim config.properties
,如下配置:
producer=kafka
#目标 Kafka 集群地址
kafka.bootstrap.servers=hadoop131:9092,hadoop132:9092,hadoop133:9092
#目标 Kafka topic,可静态配置,例如:maxwell,也可动态配置,例如:%{database}_%{table}
kafka_topic=topic_db# mysql login info
host=192.168.56.1
user=maxwell
password=maxwell
jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai&allowPublicKeyRetrieval=true#过滤目标数据库中无须采集的表
filter=exclude:gmall.sys_log
#指定数据按照主键分组进入 Kafka 不同分区,避免数据倾斜
producer_partition_by=primary_key
5、启动Maxwell
1)创建Maxwell启动脚本mxw.sh
vi /usr/bin/mxw.sh
# 修改文件权限
chmod 777 /usr/bin/mxw.sh
2)复制如下内容
#!/bin/bashMAXWELL_HOME=/data/maxwell#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fistatus_maxwell(){result=`ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | wc -l`return result
}start_maxwell(){status_maxwellif [[ $? -lt 1 ]]; thenecho "启动 Maxwell"$MAXWELL_HOME/bin/Maxwell --config $MAXWELL_HOME/config.properties --daemonelseecho "Maxwell 正在运行"fi
}stop_maxwell(){status_maxwellif [[ $? -gt 0 ]]; thenecho "停止 Maxwell"ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep |awk '{print $2}' | xargs kill -9elseecho "Maxwell 未在运行"fi
}case $1 in"start")start_maxwell;;"stop")stop_maxwell;;"restart")stop_maxwellstart_maxwell;;*)echo "Input Args Error...";;
esac
3)执行脚本 mxw.sh start
启动
先要启动zookeeper 和 kafka
6、测试
经过上面的步骤,已经启动了zookeeper 、 kafka、和maxwell
链接数据库,随便修改一个表的数据,比如我修改的是user.t_user表。
链接kafka,可以看见自动创建了topic topic_db
,查看同步数据:
{"database": "user","table": "t_user","type": "update","ts": 1709895217,"xid": 3760,"commit": true,"data": {"id": 28,"name": "1232","msg": "新用户注册事务提交事件","create_time": "2023-05-20 23:59:59","last_login_time": null,"status": 1},"old": {"name": "123"}
}
经过上面测试,说明使用Maxwell,监控mysql binlog 同步数据的操作已经打通!
四、Maxwell 全量同步
1、使用 maxwell-boostrap
全量同步数据
/data/maxwell/bin/maxwell-bootstrap --database user --table t_user --config /data/maxwell/config.properties
主要参数:
--database dbname
:指定要从中获取初始数据快照的数据库名称。--table tablename
:指定要从中获取初始数据快照的表名称。这个参数是可选的,如果省略,则默认会同步整个数据库的所有表。但是,请注意,根据 Maxwell 的具体版本和配置,这个行为可能会有所不同。--config /data/maxwell/config.properties
:指定 Maxwell 的配置文件路径。这个配置文件包含了连接到 MySQL 数据库所需的所有信息,以及其他与 Maxwell 相关的配置。
注意事项:
maxwell-bootstrap
命令通常只用于初始化数据同步,而不是用于持续的数据同步。一旦初始数据快照被创建并加载到 Maxwell 中,Maxwell 就会开始监听 binlogs 并进行实时数据同步。- 在执行
maxwell-bootstrap
命令之前,请确保 MySQL 数据库的 binlog 功能已经开启,并且 binlog 格式设置为 ROW 或 MIXED(以 ROW 为主)。这是因为 Maxwell 需要 binlog 中的行级更改信息来进行数据同步。 maxwell-bootstrap
命令的输出通常是一系列包含数据库更改事件的 JSON 消息。这些消息可以被直接发送到 Maxwell 的输出目标(如 Kafka),或者被写入到一个文件中供后续处理。- 由于
maxwell-bootstrap
会生成大量的数据,因此在执行该命令时要小心谨慎,确保目标系统能够处理这些数据负载。 - 最后,请注意检查 Maxwell 的官方文档以获取关于
maxwell-bootstrap
命令的最新信息和最佳实践建议。因为随着 Maxwell 版本的更新,命令的功能和用法可能会发生变化。
2、查看kafka数据
{"database": "user","table": "t_user","type": "bootstrap-insert","ts": 1709735024,"data": {"id": 27,"name": "Hello 001","msg": "新用户注册事务提交事件","create_time": "2023-05-20 11:37:44","last_login_time": null,"status": 1}
}
示例输出:
{"database": "dbname","table": "tablename","type": "bootstrap-start","ts": 1234567890,"data": {}
}
{"database": "dbname","table": "tablename","type": "bootstrap-insert","ts": 1234567890,"data": {"id": 1,"name": "John Doe"}
}
{"database": "dbname","table": "tablename","type": "bootstrap-complete","ts": 1234567890,"data": {}
}
在这个示例中,type
字段用于区分不同类型的更改事件。bootstrap-start
和 bootstrap-complete
分别表示数据快照的开始和结束,而 bootstrap-insert
则表示一个插入操作。ts
字段表示更改事件的时间戳,而 data
字段则包含了更改的具体数据。
参考
- https://github.com/zendesk/maxwell
这篇关于【数仓】Maxwell软件安装及配置,采集mysql数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!