Redis Cluster迁移目标节点宕机下填坑

2024-06-11 05:48

本文主要是介绍Redis Cluster迁移目标节点宕机下填坑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载自 听滴滴大神讲解redis cluster数据迁移遇到的坑

问题背景

@冬洪兄邀请,让我把最近在处理Redis Cluster中遇到的坑分享下,由于个人时间问题,大致整理了一个比较大,比较坑的问题,它可能会导致集群部分slot不可用,甚至需要重建集群。如果对redis cluster不了解的可以查看redis原理分享

架构图如下

模拟迁移数据目标节点宕机场景   集群节点及槽部署信息cluster nodes

1. 迁移8000实例的数据到8001实例

2.此时kill8001实例模拟目标节点宕机

3.连接8000实例查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

4.连接8002端口查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

5.连接8003端口查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

6. 连接8004端口查看cluster nodes发现8001实例已经fail,但是还负责槽166-234

7. 连接8006端口(8001的slave升级为master)cluster nodes发现8001实例已经fail,但是槽166-234,在8000实例(源节点上)

问题
  • 8000实例迁移数据到8001实例

  • kill掉8001实例(目标节点)

  • 发现8001机器从ok->fail, 但是仍然负责一部分槽号166-234

  • 新的slave(8006)正常升级为master

案例分析
  • 8000实例:认为槽166-234在8001实例上

  • 8002实例:认为槽166-234在8001实例上

  • 8003实例:认为槽166-234在8001实例上

  • 8004实例:认为槽166-234在8001实例上

  • 8005实例:认为槽166-234在8001实例上

  • 8006实例:认为槽166-234在8000实例上

说明:

只有宕机的8001实例的slave8006升级为master之后,认为槽166-234在(8000实例)源节点上,其他的master节点均认为该槽166-234在(8001实例)目标节点上。

修复步骤

1.此时通过redis-trib.rbfix 127.0.0.1:8002,不成功,报错如下

2.在8001实例(源节点)上强制把166-234指向自己,并且让大家强制同意

cluster setslot 166 node4ce27a0b8359a894c0ee6d2d6899df80d0910a75

cluster setslot 234 node4ce27a0b8359a894c0ee6d2d6899df80d0910a75

cluster bumpepoch

3.redis-trib.rb check集群

源码分析跟踪

1. 植入日志打印slot->nodeid信息cluster.c clusterUpdateSlotsConfWith函数

2.查询部署的clusternodes(此时,已经模拟完迁移的时候,目标节点宕机)

3.分析8000实例日志信息142槽

4.分析8002实例日志信息142槽

5.分析8003实例日志信息142槽

6.分析8004实例日志信息142槽

7.分析8005实例日志信息142槽

8.分析8006实例日志信息142槽

9.分析8007实例日志信息142槽

10.分析8008实例 日志信息142槽

11.分析8009实例 日志信息142槽

说明:

迁移完的槽142, 除了8006实例(8001实例的slave升级为master的实例),其他所有的master节点都认为8001实例目标节点。

所有的slave节点和新的master实例8006都认为槽142在8000实例源节点。

总结

由于迁移速度比较快,虽然迁移完毕了,但是也需要一段时间同步给其他节点。而这个信息靠新的owner来同步,此时还没来得及gossip消息传播。有可能迁移结束了, 但是这个槽信息同步到了除了slave的所有节点上面。总体来说redis cluster问题还是不少的。

在扩容的时候也遇到过脑裂的请情况,投票各自占一半的情况,最后也是通过手动强制指定slot来修复的。还有更多小问题就不细说了。

这篇关于Redis Cluster迁移目标节点宕机下填坑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050342

相关文章

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

C++链表的虚拟头节点实现细节及注意事项

《C++链表的虚拟头节点实现细节及注意事项》虚拟头节点是链表操作中极为实用的设计技巧,它通过在链表真实头部前添加一个特殊节点,有效简化边界条件处理,:本文主要介绍C++链表的虚拟头节点实现细节及注... 目录C++链表虚拟头节点(Dummy Head)一、虚拟头节点的本质与核心作用1. 定义2. 核心价值二

Redis的持久化之RDB和AOF机制详解

《Redis的持久化之RDB和AOF机制详解》:本文主要介绍Redis的持久化之RDB和AOF机制,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述RDB(Redis Database)核心原理触发方式手动触发自动触发AOF(Append-Only File)核

Redis分片集群、数据读写规则问题小结

《Redis分片集群、数据读写规则问题小结》本文介绍了Redis分片集群的原理,通过数据分片和哈希槽机制解决单机内存限制与写瓶颈问题,实现分布式存储和高并发处理,但存在通信开销大、维护复杂及对事务支持... 目录一、分片集群解android决的问题二、分片集群图解 分片集群特征如何解决的上述问题?(与哨兵模

SpringBoot连接Redis集群教程

《SpringBoot连接Redis集群教程》:本文主要介绍SpringBoot连接Redis集群教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 依赖2. 修改配置文件3. 创建RedisClusterConfig4. 测试总结1. 依赖 <de

SpringBoot+Redis防止接口重复提交问题

《SpringBoot+Redis防止接口重复提交问题》:本文主要介绍SpringBoot+Redis防止接口重复提交问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录前言实现思路代码示例测试总结前言在项目的使用使用过程中,经常会出现某些操作在短时间内频繁提交。例

Redis 配置文件使用建议redis.conf 从入门到实战

《Redis配置文件使用建议redis.conf从入门到实战》Redis配置方式包括配置文件、命令行参数、运行时CONFIG命令,支持动态修改参数及持久化,常用项涉及端口、绑定、内存策略等,版本8... 目录一、Redis.conf 是什么?二、命令行方式传参(适用于测试)三、运行时动态修改配置(不重启服务

浅析如何保证MySQL与Redis数据一致性

《浅析如何保证MySQL与Redis数据一致性》在互联网应用中,MySQL作为持久化存储引擎,Redis作为高性能缓存层,两者的组合能有效提升系统性能,下面我们来看看如何保证两者的数据一致性吧... 目录一、数据不一致性的根源1.1 典型不一致场景1.2 关键矛盾点二、一致性保障策略2.1 基础策略:更新数

Conda虚拟环境的复制和迁移的四种方法实现

《Conda虚拟环境的复制和迁移的四种方法实现》本文主要介绍了Conda虚拟环境的复制和迁移的四种方法实现,包括requirements.txt,environment.yml,conda-pack,... 目录在本机复制Conda虚拟环境相同操作系统之间复制环境方法一:requirements.txt方法