【数仓】Maxwell软件安装及配置,采集mysql数据

2024-03-09 12:36

本文主要是介绍【数仓】Maxwell软件安装及配置,采集mysql数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相关文章

  • 【数仓】基本概念、知识普及、核心技术
  • 【数仓】数据分层概念以及相关逻辑
  • 【数仓】Hadoop软件安装及使用(集群配置)
  • 【数仓】Hadoop集群配置常用参数说明
  • 【数仓】zookeeper软件安装及集群配置
  • 【数仓】kafka软件安装及集群配置
  • 【数仓】flume软件安装及配置
  • 【数仓】flume常见配置总结,以及示例

一、Maxwell有什么作用

Maxwell是一个读取MySQL binlogs(二进制日志)的应用程序,它的主要作用是将MySQL中的变更数据(包括insert、update、delete等操作)实时捕获,并将这些变更数据以JSON格式发送到Kafka、Kinesis、RabbitMQ等流数据处理平台。通过这种方式,Maxwell实现了数据的实时同步和变更捕获,为数据仓库提供了实时、准确的数据源。

具体来说,Maxwell可以支持SELECT * FROM table的方式进行全量数据初始化,同时还支持在主库发生failover后自动恢复binlog位置(GTID)。此外,Maxwell还可以对数据进行分区,解决数据倾斜问题,并支持database、table、column等级别的数据分区。在工作方式上,Maxwell伪装为MySQL的Slave,接收binlog events,然后根据schemas信息拼装,可以接受ddl、xid、row等各种event。

总的来说,在数仓中,Maxwell的作用主要是实时捕获MySQL中的变更数据,并将这些数据以流的形式发送到下游处理平台,从而实现数据的实时同步和处理。这对于需要实时分析、处理大量数据的场景(如实时报表、实时推荐系统等)非常有用。

二、环境准备

准备1台虚拟机

  • Hadoop131:192.168.56.131

本例系统版本 CentOS-7.8,已安装jdk1.8

关闭防火墙

systemctl stop firewalld

三、Maxwell安装配置

1、Maxwell下载安装

这里使用的是1.29.2版本,1.30.0以上的版本需要jdk11

# 下载解压
wget --no-check-certificate https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxwell-1.29.2.tar.gz
tar -xzvf maxwell-1.29.2.tar.gz
mv  maxwell-1.29.2/ /data/maxwell/

2、开启mysql Binlog模式

在 MySQL 8.0 中,要开启二进制日志(binlog),你需要在 MySQL 的配置文件(my.inimy.cnf)中设置相应的选项。以下是如何开启 binlog 的步骤:

  1. 找到配置文件:首先,找到 MySQL 的配置文件。在 Windows 上,它通常位于 MySQL 安装目录下的 my.ini 文件中。在 Linux 或其他 Unix-like 系统上,它通常位于 /etc/my.cnf/etc/mysql/my.cnf。如果找不到这些文件,请根据你的安装方式和操作系统查找正确的位置。

  2. 编辑配置文件:使用文本编辑器打开配置文件。在 [mysqld] 部分下添加或修改以下行:

    [mysqld]
    log-bin=mysql-bin  # 开启 binlog 并设置日志文件名前缀为 mysql-bin
    server-id=1        # 设置服务器 ID,确保每个 MySQL 实例的 server-id 是唯一的
    binlog-format=row
    binlog-do-db=user  # 指定需要记录二进制日志的数据库名
    # 如果需要配置多个数据库,可以写多行,类似如下
    # binlog-do-db=database1  
    # binlog-do-db=database2
    

    log-bin 选项用于启用二进制日志并设置日志文件的名称前缀。server-id 是必需的,用于在复制环境中标识每个 MySQL 服务器实例。

  3. 重启 MySQL 服务:保存配置文件后,需要重启 MySQL 服务以使更改生效。根据你的操作系统和安装方式,使用相应的命令来重启 MySQL 服务。例如,在 Linux 上,你可能会使用 sudo systemctl restart mysqlsudo service mysql restart。在 Windows 上,你可以通过服务管理器重启 MySQL 服务。

  4. 验证 binlog 是否已开启:重启 MySQL 服务后,登录到 MySQL 服务器并运行以下 SQL 查询来验证 binlog 是否已开启:

    SHOW VARIABLES LIKE 'log_bin';
    

    如果返回的结果是 ON,则表示 binlog 已成功开启。

请注意,开启 binlog 可能会增加一些磁盘 I/O 开销,因为所有更改数据的查询都会被记录到日志文件中。确保你的磁盘有足够的空间来存储这些日志文件,并定期监控和管理它们的大小和数量。

3、创建Maxwell所需的数据库和用户

# 创建数据库
CREATE DATABASE maxwell;# 创建 maxwell 用户并赋予其必要权限
CREATE USER 'maxwell'@'%' IDENTIFIED BY 'maxwell';
GRANT ALL ON maxwell.* to 'maxwell'@'%';
GRANT SELECT,REPLICATION CLIENT,REPLICATION SLAVE ON *.* TO 'maxwell'@'%'

4、配置Maxwell属性

重命名根目录(/data/maxwell)下的 config.properties.example,然后修改配置

mv config.properties.example config.properties

vim config.properties,如下配置:

producer=kafka
#目标 Kafka 集群地址
kafka.bootstrap.servers=hadoop131:9092,hadoop132:9092,hadoop133:9092
#目标 Kafka topic,可静态配置,例如:maxwell,也可动态配置,例如:%{database}_%{table}
kafka_topic=topic_db# mysql login info
host=192.168.56.1
user=maxwell
password=maxwell
jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai&allowPublicKeyRetrieval=true#过滤目标数据库中无须采集的表
filter=exclude:gmall.sys_log
#指定数据按照主键分组进入 Kafka 不同分区,避免数据倾斜
producer_partition_by=primary_key

5、启动Maxwell

1)创建Maxwell启动脚本mxw.sh

vi /usr/bin/mxw.sh
# 修改文件权限
chmod 777 /usr/bin/mxw.sh

2)复制如下内容

#!/bin/bashMAXWELL_HOME=/data/maxwell#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fistatus_maxwell(){result=`ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep | wc -l`return result
}start_maxwell(){status_maxwellif [[ $? -lt 1 ]]; thenecho "启动 Maxwell"$MAXWELL_HOME/bin/Maxwell --config $MAXWELL_HOME/config.properties --daemonelseecho "Maxwell 正在运行"fi
}stop_maxwell(){status_maxwellif [[ $? -gt 0 ]]; thenecho "停止 Maxwell"ps -ef | grep com.zendesk.maxwell.Maxwell | grep -v grep |awk '{print $2}' | xargs kill -9elseecho "Maxwell 未在运行"fi
}case $1 in"start")start_maxwell;;"stop")stop_maxwell;;"restart")stop_maxwellstart_maxwell;;*)echo "Input Args Error...";;
esac

3)执行脚本 mxw.sh start 启动

先要启动zookeeper 和 kafka

6、测试

经过上面的步骤,已经启动了zookeeper 、 kafka、和maxwell

链接数据库,随便修改一个表的数据,比如我修改的是user.t_user表。

链接kafka,可以看见自动创建了topic topic_db,查看同步数据:

{"database": "user","table": "t_user","type": "update","ts": 1709895217,"xid": 3760,"commit": true,"data": {"id": 28,"name": "1232","msg": "新用户注册事务提交事件","create_time": "2023-05-20 23:59:59","last_login_time": null,"status": 1},"old": {"name": "123"}
}

经过上面测试,说明使用Maxwell,监控mysql binlog 同步数据的操作已经打通!

四、Maxwell 全量同步

1、使用 maxwell-boostrap 全量同步数据

/data/maxwell/bin/maxwell-bootstrap --database user --table t_user --config /data/maxwell/config.properties

主要参数:

  • --database dbname:指定要从中获取初始数据快照的数据库名称。
  • --table tablename:指定要从中获取初始数据快照的表名称。这个参数是可选的,如果省略,则默认会同步整个数据库的所有表。但是,请注意,根据 Maxwell 的具体版本和配置,这个行为可能会有所不同。
  • --config /data/maxwell/config.properties:指定 Maxwell 的配置文件路径。这个配置文件包含了连接到 MySQL 数据库所需的所有信息,以及其他与 Maxwell 相关的配置。

注意事项:

  • maxwell-bootstrap 命令通常只用于初始化数据同步,而不是用于持续的数据同步。一旦初始数据快照被创建并加载到 Maxwell 中,Maxwell 就会开始监听 binlogs 并进行实时数据同步。
  • 在执行 maxwell-bootstrap 命令之前,请确保 MySQL 数据库的 binlog 功能已经开启,并且 binlog 格式设置为 ROW 或 MIXED(以 ROW 为主)。这是因为 Maxwell 需要 binlog 中的行级更改信息来进行数据同步。
  • maxwell-bootstrap 命令的输出通常是一系列包含数据库更改事件的 JSON 消息。这些消息可以被直接发送到 Maxwell 的输出目标(如 Kafka),或者被写入到一个文件中供后续处理。
  • 由于 maxwell-bootstrap 会生成大量的数据,因此在执行该命令时要小心谨慎,确保目标系统能够处理这些数据负载。
  • 最后,请注意检查 Maxwell 的官方文档以获取关于 maxwell-bootstrap 命令的最新信息和最佳实践建议。因为随着 Maxwell 版本的更新,命令的功能和用法可能会发生变化。

2、查看kafka数据

{"database": "user","table": "t_user","type": "bootstrap-insert","ts": 1709735024,"data": {"id": 27,"name": "Hello 001","msg": "新用户注册事务提交事件","create_time": "2023-05-20 11:37:44","last_login_time": null,"status": 1}
}

示例输出:

{"database": "dbname","table": "tablename","type": "bootstrap-start","ts": 1234567890,"data": {}
}
{"database": "dbname","table": "tablename","type": "bootstrap-insert","ts": 1234567890,"data": {"id": 1,"name": "John Doe"}
}
{"database": "dbname","table": "tablename","type": "bootstrap-complete","ts": 1234567890,"data": {}
}

在这个示例中,type 字段用于区分不同类型的更改事件。bootstrap-startbootstrap-complete 分别表示数据快照的开始和结束,而 bootstrap-insert 则表示一个插入操作。ts 字段表示更改事件的时间戳,而 data 字段则包含了更改的具体数据。

参考

  • https://github.com/zendesk/maxwell

这篇关于【数仓】Maxwell软件安装及配置,采集mysql数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/790691

相关文章

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 中的 CAST 函数详解及常见用法

《MySQL中的CAST函数详解及常见用法》CAST函数是MySQL中用于数据类型转换的重要函数,它允许你将一个值从一种数据类型转换为另一种数据类型,本文给大家介绍MySQL中的CAST... 目录mysql 中的 CAST 函数详解一、基本语法二、支持的数据类型三、常见用法示例1. 字符串转数字2. 数字

Mysql实现范围分区表(新增、删除、重组、查看)

《Mysql实现范围分区表(新增、删除、重组、查看)》MySQL分区表的四种类型(范围、哈希、列表、键值),主要介绍了范围分区的创建、查询、添加、删除及重组织操作,具有一定的参考价值,感兴趣的可以了解... 目录一、mysql分区表分类二、范围分区(Range Partitioning1、新建分区表:2、分

MySQL 定时新增分区的实现示例

《MySQL定时新增分区的实现示例》本文主要介绍了通过存储过程和定时任务实现MySQL分区的自动创建,解决大数据量下手动维护的繁琐问题,具有一定的参考价值,感兴趣的可以了解一下... mysql创建好分区之后,有时候会需要自动创建分区。比如,一些表数据量非常大,有些数据是热点数据,按照日期分区MululbU

SQL Server配置管理器无法打开的四种解决方法

《SQLServer配置管理器无法打开的四种解决方法》本文总结了SQLServer配置管理器无法打开的四种解决方法,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录方法一:桌面图标进入方法二:运行窗口进入检查版本号对照表php方法三:查找文件路径方法四:检查 S

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

Python中win32包的安装及常见用途介绍

《Python中win32包的安装及常见用途介绍》在Windows环境下,PythonWin32模块通常随Python安装包一起安装,:本文主要介绍Python中win32包的安装及常见用途的相关... 目录前言主要组件安装方法常见用途1. 操作Windows注册表2. 操作Windows服务3. 窗口操作