TiDB-从0到1-TiCDC数据同步工具

2024-08-24 03:20
文章标签 工具 数据 tidb 同步 ticdc

本文主要是介绍TiDB-从0到1-TiCDC数据同步工具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

TiDB从0到1系列

  • TiDB-从0到1-体系结构
  • TiDB-从0到1-分布式存储
  • TiDB-从0到1-分布式事务
  • TiDB-从0到1-MVCC
  • TiDB-从0到1-部署篇
  • TiDB-从0到1-配置篇
  • TiDB-从0到1-集群扩缩容
  • TiDB-从0到1-数据导出导入
  • TiDB-从0到1-BR工具

一、TiCDC简介

每每介绍TiDB的组件都不得不感叹一下其强大的整体功能性。当使用MySQL还需要在下游挂canal时,TiDB则可以使用与其更适配的原生TiCDC。TiCDC 是一款 TiDB 增量数据同步工具,通过拉取上游 TiKV 的数据变更日志,TiCDC 可以将数据解析为有序的行级变更数据输出到下游。
TiCDC目前支持直接将TiDB数据同步至MySQL\TiDB\Kafka等

在这里插入图片描述
(整体架构图)

二、TiCDC原理

  • TiCDC是直接读取TiKV的change log,而不是读binlog,所以性能极高
  • 与DM Worker的工作逻辑不同,TiCDC中的各个节点将监测到各个TiKV节点的change log并统一传递到TiCDC的owner节点,由owner节点进行数据整合后再传输至下游组件

三、TiCDC使用限制

1、TiCDC只能同步至少存在一个有效索引的表

  • 主键为有效索引
  • 唯一索引中每一列在表结构中明确定义非空(NOT NULL)
  • 唯一索引中不存在虚拟生成列(VIRTUAL GENERATED COLUMNS)

2、TiCDC不支持的场景

  • 不支持单独同步某个TiKV,必须是TiKV集群
  • 不支持在TiDB中创建SEQUENCE的DDL操作和SEQUENCE函数

四、TiCDC部署

1、同TiDB集群一起部署

#在TiDB集群启动配置文件中加入cdc节点内容
cdc_servers:
- host: xx.xxx.xx.xxport:8300deploy_dir: "/tidb-deploy/cdc-8300"data_dir: "/tidb-data/cdc-8300"log_dir: “/tidb-deploy/cdc-8300/log”
- host: xx.xxx.xx.xxport:8300deploy_dir: "/tidb-deploy/cdc-8300"data_dir: "/tidb-data/cdc-8300"log_dir: “/tidb-deploy/cdc-8300/log”
- host: xx.xxx.xx.xxport:8300deploy_dir: "/tidb-deploy/cdc-8300"data_dir: "/tidb-data/cdc-8300"log_dir: “/tidb-deploy/cdc-8300/log”

2、扩容部署
#当已有的TiDB集群已经运行了一段时间后,可以通过扩容的方式将CDC加入TiDB集群

#准备扩容文件

cdc_servers:
-host: xx.xxx.xx
gc-ttl:86400
data_dir: /data/deploy/install/data/cdc-8300
-host: xx.xxx.xx.x
gc-ttl:86400
data_dir: /data/deploy/install/data/cdc-8300
-host: xx.xxx.xx.x
gc-ttl:86400
data_dir: /data/deploy/install/data/cdc-8300

#执行扩容命令

tiup cluster scale-out tidb_test scale-out-ticdc.yml

#查看CDC节点

tiup cdc cli capture list --pd=http://xxx.xxx.xxx.xxx:2379

在这里插入图片描述

五、使用TiCDC

1、使用TiCDC创建同步任务(实例为同步数据至MySQL)

cdc cli changefeed create --pd=http://xx.xxx.xx.xx:2379 --sink-uri="mysql://root:xxx@127.0.0.1:3306/"
--changefeed-id="replication-task-1"
--sort-engine="unified"

常用参数:

  • –changefeed-id:同步任务的ID
  • –sink-uri:同步任务下游的地址
  • –start-ts:开始同步上游的时间戳
  • –target-ts:下游截止的时间戳
  • –config:执行配置文件目录
  • –sort-engine:
    #数据汇总在哪里完成
    memory:在内存
    file:在磁盘
    unified:优先在内存,内存不够在磁盘

2、查看有哪些TiCDC同步任务

tiup cdc cli changefeed list --pd=http://xxx.xxx.xx.xx:2379

在这里插入图片描述

3、查看同步任务状态

tiup cdc cli changefeed query --pd=http://xx.xx.xxx.xx:2379 --changefeed-id=replication-task-1

在这里插入图片描述

4、停止同步任务

tiup cdc cli changefeed pause --pd=http://xxx.xxx.xxx.xx:2379 --changefeed-id=replication-task-1

5、恢复同步任务

tiup cdc cli changefeed resume --pd=http://xxx.xxx.xxx.xx:2379 --changefeed-id=replication-task-1

6、删除同步任务

tiup cdc cli changefeed remove --pd=http://xxx.xxx.xxx.xx:2379 --changefeed-id=replication-task-1

7、TiCDC任务状态
在这里插入图片描述

彩蛋

基于TiCDC的可玩性就可以适用于多类场景

  • TiDB集群的容灾
  • MySQL迁到TiDB后,再用TiCDC实时同步数据回MySQL,为回滚做准备
  • 实现原MySQL上canal+kafka的功能,以应对更多业务场景

在这里插入图片描述

这篇关于TiDB-从0到1-TiCDC数据同步工具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1101306

相关文章

MyBatis-Plus通用中等、大量数据分批查询和处理方法

《MyBatis-Plus通用中等、大量数据分批查询和处理方法》文章介绍MyBatis-Plus分页查询处理,通过函数式接口与Lambda表达式实现通用逻辑,方法抽象但功能强大,建议扩展分批处理及流式... 目录函数式接口获取分页数据接口数据处理接口通用逻辑工具类使用方法简单查询自定义查询方法总结函数式接口

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用OpenCV实现获取视频时长的小工具

《Python使用OpenCV实现获取视频时长的小工具》在处理视频数据时,获取视频的时长是一项常见且基础的需求,本文将详细介绍如何使用Python和OpenCV获取视频时长,并对每一行代码进行深入解析... 目录一、代码实现二、代码解析1. 导入 OpenCV 库2. 定义获取视频时长的函数3. 打开视频文

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查