Redis Cluster迁移目标节点宕机下填坑

2024-06-11 05:48

本文主要是介绍Redis Cluster迁移目标节点宕机下填坑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载自 听滴滴大神讲解redis cluster数据迁移遇到的坑

问题背景

@冬洪兄邀请,让我把最近在处理Redis Cluster中遇到的坑分享下,由于个人时间问题,大致整理了一个比较大,比较坑的问题,它可能会导致集群部分slot不可用,甚至需要重建集群。如果对redis cluster不了解的可以查看redis原理分享

架构图如下

模拟迁移数据目标节点宕机场景   集群节点及槽部署信息cluster nodes

1. 迁移8000实例的数据到8001实例

2.此时kill8001实例模拟目标节点宕机

3.连接8000实例查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

4.连接8002端口查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

5.连接8003端口查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

6. 连接8004端口查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

7. 连接8006端口(8001的slave升级为master)cluster nodes发现8001实例已经fail,但是槽166-234,在8000实例(源节点上)

问题
  • 8000实例迁移数据到8001实例

  • kill掉8001实例(目标节点)

  • 发现8001机器从ok->fail, 但是仍然负责一部分槽号166-234

  • 新的slave(8006)正常升级为master

案例分析
  • 8000实例:认为槽166-234在8001实例上

  • 8002实例:认为槽166-234在8001实例上

  • 8003实例:认为槽166-234在8001实例上

  • 8004实例:认为槽166-234在8001实例上

  • 8005实例:认为槽166-234在8001实例上

  • 8006实例:认为槽166-234在8000实例上

说明:

只有宕机的8001实例的slave8006升级为master之后,认为槽166-234在(8000实例)源节点上,其他的master节点均认为该槽166-234在(8001实例)目标节点上。

修复步骤

1.此时通过redis-trib.rbfix 127.0.0.1:8002,不成功,报错如下

2.在8001实例(源节点)上强制把166-234指向自己,并且让大家强制同意

cluster setslot 166 node4ce27a0b8359a894c0ee6d2d6899df80d0910a75

cluster setslot 234 node4ce27a0b8359a894c0ee6d2d6899df80d0910a75

cluster bumpepoch

3.redis-trib.rb check集群

源码分析跟踪

1. 植入日志打印slot->nodeid信息cluster.c clusterUpdateSlotsConfWith函数

2.查询部署的clusternodes(此时,已经模拟完迁移的时候,目标节点宕机)

3.分析8000实例日志信息142槽

4.分析8002实例日志信息142槽

5.分析8003实例日志信息142槽

6.分析8004实例日志信息142槽

7.分析8005实例日志信息142槽

8.分析8006实例日志信息142槽

9.分析8007实例日志信息142槽

10.分析8008实例 日志信息142槽

11.分析8009实例 日志信息142槽

说明:

迁移完的槽142, 除了8006实例(8001实例的slave升级为master的实例),其他所有的master节点都认为8001实例目标节点。

所有的slave节点和新的master实例8006都认为槽142在8000实例源节点。

总结

由于迁移速度比较快,虽然迁移完毕了,但是也需要一段时间同步给其他节点。而这个信息靠新的owner来同步,此时还没来得及gossip消息传播。有可能迁移结束了, 但是这个槽信息同步到了除了slave的所有节点上面。总体来说redis cluster问题还是不少的。

在扩容的时候也遇到过脑裂的请情况,投票各自占一半的情况,最后也是通过手动强制指定slot来修复的。还有更多小问题就不细说了。

这篇关于Redis Cluster迁移目标节点宕机下填坑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050342

相关文章

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

SpringBoot使用注解集成Redis缓存的示例代码

《SpringBoot使用注解集成Redis缓存的示例代码》:本文主要介绍在SpringBoot中使用注解集成Redis缓存的步骤,包括添加依赖、创建相关配置类、需要缓存数据的类(Tes... 目录一、创建 Caching 配置类二、创建需要缓存数据的类三、测试方法Spring Boot 熟悉后,集成一个外

Redis分布式锁使用及说明

《Redis分布式锁使用及说明》本文总结了Redis和Zookeeper在高可用性和高一致性场景下的应用,并详细介绍了Redis的分布式锁实现方式,包括使用Lua脚本和续期机制,最后,提到了RedLo... 目录Redis分布式锁加锁方式怎么会解错锁?举个小案例吧解锁方式续期总结Redis分布式锁如果追求

Redis的Hash类型及相关命令小结

《Redis的Hash类型及相关命令小结》edisHash是一种数据结构,用于存储字段和值的映射关系,本文就来介绍一下Redis的Hash类型及相关命令小结,具有一定的参考价值,感兴趣的可以了解一下... 目录HSETHGETHEXISTSHDELHKEYSHVALSHGETALLHMGETHLENHSET

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

如何提高Redis服务器的最大打开文件数限制

《如何提高Redis服务器的最大打开文件数限制》文章讨论了如何提高Redis服务器的最大打开文件数限制,以支持高并发服务,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录如何提高Redis服务器的最大打开文件数限制问题诊断解决步骤1. 修改系统级别的限制2. 为Redis进程特别设置限制

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)

基于Redis有序集合实现滑动窗口限流的步骤

《基于Redis有序集合实现滑动窗口限流的步骤》滑动窗口算法是一种基于时间窗口的限流算法,通过动态地滑动窗口,可以动态调整限流的速率,Redis有序集合可以用来实现滑动窗口限流,本文介绍基于Redis... 滑动窗口算法是一种基于时间窗口的限流算法,它将时间划分为若干个固定大小的窗口,每个窗口内记录了该时间

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间