StarRocks 跨集群数据迁移,SDM 帮你一键搞定!

2024-05-09 13:36

本文主要是介绍StarRocks 跨集群数据迁移,SDM 帮你一键搞定!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:严祥光,StarRocks Active Contributor,StarRocks 存算分离核心研发,在社区中主要负责数据导入、跨集群同步、数据迁移和容灾等工作。

有时候,你可能会为以下需求而苦恼,苦苦搜索更好的解决方案:

情景一: 想象一下,你急需 验证新版本 但又不能影响线上已有集群的运行。你需要在不影响现有集群的基础上将数据迁移到新集群以进行验证。

情景二: 听说 StarRocks 新推出的 存算分离 模式超级给力,你肯定也想试试水,为业务降本增效吧?但问题来了,怎么把现有的数据平滑而高效地迁移到这个新模式下呢?

情景三: 你想实现 读写分离 ,即主集群写入数据后,自动同步到备集群,然后在备集群进行查询。

情景四: 你的业务需要实现 跨机房灾备 ,这样即使主机房集群挂了,也可以从其他机房的备集群快速启动。

我相信,正在使用 StarRocks 的你或许也正经历这些复杂的需求。别担心,今天我要教大家如何使用好 StarRocks 自带的 跨集群迁移解决方案- StarRocks Data Migration。 掌握了它,数据迁移将变得更轻松而高效,让你的数据处理如同行云流水般顺畅。

StarRocks Data Migration 简介

StarRocks Data Migration 是 StarRocks 推出的 跨集群 数据 同步 工具 借助该工具,你可以灵活的配置要同步的库、表、甚至整个集群的数据,然后无需人工干预,数据会按照配置好的规则自动从源集群同步到目标集群,而且效率非常高。StarRocks Data Migration 具有以下特点:

  1. 全量与增量同步支持:对于每张要同步的表,首先进行一次全量同步,然后周期性进行增量同步。

  2. 支持多种同步模式: 不仅 支持从存算一体集群同步到存算一体集群, 支持存算一体到存算分离集群 同步。 未来还将支持存算分离到存算一体的同步。

  3. 源集群 0 侵入:相较于市面上一些基于 Change log 的跨集群数据同步方案,StarRocks Data Migration 不需要用户升级源集群版本,也不会在同步过程中产生不必要的 Change log,因此源集群无需任何改变即可轻松完成数据迁移。

  4. 源集群影响小:通过设计多级限流机制,最大程度地保护源集群,避免影响其正常负载,用户可以放心将其用于生产环境。

  5. 同步效率高:数据同步采用直接点对点拷贝物理文件的方式,因此具有非常高的效率,具体的同步性能测试结果请参考后文。

关于 StarRocks Data Migration 的具体使用方法,请参考官方文档:https://docs.starrocks.io/zh/docs/administration/data_migration_tool

性能

同步效率是数据迁移同步中最重要的指标之一,因此我们进行了专项测试,以下是测试结果的展示。

测试环境

我们选择在阿里云上部署两个集群测试迁移速度,两个集群的规格如下:

td {white-space:nowrap;border:1px solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}
节点角色节点数量实例规格磁盘大小(G)磁盘数量磁盘类别磁盘性能级别
FE1ecs.c5.16xlarge10241cloud_essdPL1
BE10ecs.g5.16xlarge20483cloud_essdPL1

测试过程中向源集群导入 SSB 1T 和 TPCH 1T 数据集,完成数据同步后,我们在目标集群查看每个表的同步事务的开始时间与提交时间,进而计算同步耗时和同步速度。

SSB 迁移

表名数据量同步开始同步结束同步耗时同步速度
customer4.056 GB11:30:0411:30:084s1.014 GB/s
dates100.438 KB11:28:0411:28:062s50.219 KB/s
lineorder457.092 GB11:26:0411:27:0561s7.4933 GB/s
part54.118 MB11:24:0411:24:062s27.059 MB/s
supplier274.588 MB11:22:5411:22:562s137.294 MB/s

同步速度最快的为 lineorder 表: 7.4933 GB /s

TPCH 迁移

表名数据量同步开始同步结束同步耗时同步速度
customer38.611 GB12:23:0512:23:1712s1.60879 GB/s
lineitem580.284 GB12:15:0512:16:2984s6.90814 GB/s
nation6.343 KB12:17:0512:17:072s3.1715 KB/s
orders186.446 GB12:21:0512:21:3227s6.9054 GB/s
part20.968 GB12:19:0512:19:127s2.99543 GB/s
partsupp121.661 GB12:13:1512:13:4530s4.05537 GB/s
region2.458 KB12:23:0512:23:072s1.229 KB/s
supplier2.453 GB12:17:0512:17:083s0.81767 GB/s

同步速度最快的为 lineitem 表: 6.90814 GB/s

原理

在这里插入图片描述

看完了 StarRocks Data Migration 工具的介绍和性能测试之后,接下来要带大家了解它是怎么实现的。

StarRocks Data Migration Tool 会周期性地获取源集群和目标集群的元数据进行对比,根据比对结果在目标集群创建所需的库、表、分区等,并提交数据同步任务。

数据同步以表为单位,每次同步启动一个事务,保证了同步任务的原子性,要么全部成功,要么全部失败,不会出现部分成功部分失败的情况,确保了数据一致性。

目标集群接受数据同步任务后,首先开启一个事务,然后向相关的 BE 下发同步任务。BE 收到任务后,先请求源集群进行一次快照,防止同步过程中数据被清理。目标集群在高负载情况下会拒绝新的数据同步任务,以进行自我保护。

快照是一个轻量级操作,不会影响源集群。一旦完成快照,目标集群就可以拷贝快照中的数据文件。数据拷贝采用 BE 之间的点对点方式,速度快,效率高,并在拷贝过程中自动限流,避免对源集群产生过大压力。

当本次同步任务的所有数据拷贝完成后,FE 即可提交同步事务,使本次同步数据立即生效。同时,事务提交后,源集群上生成的快照也会被清理,确保数据同步后的环境整洁。

使用指南与注意事项

  1. 源集群与目标集群的 BE 节点需要保证网络能够互通,因为涉及到数据拷贝。

  2. 数据同步不会自动结束,如果源集群持续有新数据写入,数据同步会一直进行。

  3. 数据同步过程中,可以查询目标集群中同步的表,但不要写入数据,否则会导致目标集群数据与源集群不一致。

  4. StarRocks Data Migration 是 StarRocks 集群间的同步工具; 如果你需要将外部数据库数据导入StarRocks 你需要了解另一个工具:StarRocks migration tool(SMT)。

StarRocks migration tool(简称 SMT)是 StarRocks 提供的数据迁移工具,用于将源数据库的数据通过 Flink 导入 StarRocks。 其主要有两个功能:

  • 根据源数据库和目标 StarRocks 集群的信息,生成 StarRocks 建表语句。

  • 生成 Flink 的 SQL 客户端 可执行的 SQL 语句,以提交同步数据的 Flink job,简化链路中全量或增量数据同步流程。

文档链接:https://docs.starrocks.io/zh/docs/integrations/loading_tools/SMT/

更多交流,联系我们:https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/8da64

这篇关于StarRocks 跨集群数据迁移,SDM 帮你一键搞定!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/973562

相关文章

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

Redis分片集群的实现

《Redis分片集群的实现》Redis分片集群是一种将Redis数据库分散到多个节点上的方式,以提供更高的性能和可伸缩性,本文主要介绍了Redis分片集群的实现,具有一定的参考价值,感兴趣的可以了解一... 目录1. Redis Cluster的核心概念哈希槽(Hash Slots)主从复制与故障转移2.

使用Python实现一键隐藏屏幕并锁定输入

《使用Python实现一键隐藏屏幕并锁定输入》本文主要介绍了使用Python编写一个一键隐藏屏幕并锁定输入的黑科技程序,能够在指定热键触发后立即遮挡屏幕,并禁止一切键盘鼠标输入,这样就再也不用担心自己... 目录1. 概述2. 功能亮点3.代码实现4.使用方法5. 展示效果6. 代码优化与拓展7. 总结1.

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1