腾讯三面:哨兵挂了,Redis还能正常工作吗?

2024-05-03 21:58

本文主要是介绍腾讯三面:哨兵挂了,Redis还能正常工作吗?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

上次跟学弟学妹们聊完了mysql相关的一些知识点,学弟学妹们还是挺开心的,但是上次有学弟在跟我留言,在腾讯三面的时候被面试官问了个一脸蒙逼急的问题:

哨兵挂了,Redis还能正常工作吗?

为了对的起学弟学妹们的信赖这次跟大家具体聊聊Redis的哨兵模式。

redis哨兵都干了什么

redis哨兵是一个运行的特殊的redis进程,他主要有三个使命:

监控
选主
通知

监控的是什么

哨兵主要是监听主库和从库是否存活,怎么进行监控?哨兵会定期的给从库发送PING命令,如果从库没有在设定的时间内回复哨兵,那么就会认为从库下线了。哨兵也会定期的给主库发送PING命令进行通信,如果主库也没有在设定的时间内回复哨兵,那么就会认为主库也“下线了”。【注意我这里只是为了说明下监控的方式,真正判断的主库下线不是这样的】。
在这里插入图片描述可以看到图中redis-2 slave 是灰色,表示已经down掉了,此时并没有正常返回给哨兵响应,所以被标记为下线状态了。

主库的监控

这里为什么要单独来说下主库的监控呢?因为主库监控,不能说哨兵没有收到PING的响应,那么就认为主库就下线了,因为主库的选举是一个很复杂的过程,会有耗时和通信的开销,所以我们不能简单认为哨兵没有收到PING的响应,那么就直接判断主库下线了,然后就进行选举,如果是从库可以的,因为从库下线了,对于主从集群来说,影响不会很大。

在主库压力比较大,或者网络阻塞了,出现抖动了,这个是并没有在设定的时间内回复给哨兵响应,那么此时武断的认为主库"下线了",此时就出现了误判,明明不需要进行选主,不需要进行通知,此时白白浪费的资源、同时带来了开销。

在网络畅通的情况下,哨兵发了一个PING给主库
在这里插入图片描述此时网络阻塞,变成了红色,PONG,没有在设定的时间内返回
在这里插入图片描述网络恢复顺畅,哨兵重试,在设定的时间内返回响应
在这里插入图片描述通过上面三幅图,其实就可以看出,网络阻塞的情况下,会出现误判的情况。

那么reids是怎么判断主库下线的呢?其实redis采用哨兵集群的方式,让哨兵集群中的每个哨兵都和主库进行通信,如果多数都没有在设定的时间内响应给哨兵,因为多个哨兵都出现网络不稳定的情况概率就大大降低了,那么此时这个主库就认为是下线了。下面我们来细细地说下这个过程,同时引入哨兵集群也解决了哨兵单点的问题。

主库的下线判断

这个过程分为主观下线和客观下线。

主观下线:指的是一个哨兵在设定的时间内,没有收到主库的响应,那么此时是这个哨兵主观的认为主库下线了,并不能认为真正的下线。

客观下线:指的是,当多数哨兵在设定的时间内,都没有收到主库的响应,那么此时就可以认为主库真的下线,称为客观事实了。

继续看图说话:

下图中只有哨兵B,没有在设定的时间内,收到响应,判断为主观下线了,但是其他哨兵A和哨兵C都能在设定的时间内收到响应,所以还是线上状态,少数服从多数,此时结论还是上线状态。
在这里插入图片描述下图中哨兵B和哨兵C,都没有在设定的时间内收到响应,即使哨兵A收到正常的响应,那么此时已经构成多数情况下的主观下线,此时就可以判断为客观下线了。
在这里插入图片描述选主

上面的我相信大家已经很清楚,redis的怎么判断主库的下线了,那么此时redis需要从剩下的所有的从库中再次选举出一个新的主库,来接收后面来的写请求。

reids哨兵会对从库们进行打分,谁的分数高,那么它就是新的master了,下面来详细说选主的过程。

哨兵在进行打分之前,先会在从库进行筛选,把不合格的从库筛选掉,留下优秀的种子选手来进行参赛打分。

那么筛选的依据是什么呢?

哨兵会把标记为下线的从库和主从之间网络不顺畅的从库筛选掉,看下图你就明白了:
在这里插入图片描述
在主从模式下,如果主从之间网络断开的次数和超时时间超过 down-after-milliseconds 的设置,那么就会认为该从库网络不健康了,不稳定了。

接下来就会从剩下的优秀从库内进行打分,打分最高者为新的Master,

打分会从三个层级进行打分,记住只会比较一个层级的分数,只要在当前的层级分数最高就可以了,如果分数相同,再比下一个层级,以此类推。

第一轮:比较从库的优先级

你可以手动设置从库的优先级,通过 slave-priority 进行设置,数字越小,级别越高。如果这个层次,有优先级级别最高的出现,那么就选此从库做为Master,选举就结束了,如果优先级相同,那么进入下一轮打分。看图:
在这里插入图片描述第二轮:与主库的同步进度越接近

肯定是从库的数据越新,那么选择它作为新的Master,才最有意义了。那怎么才能知道哪个从库才是最新的呢?

我们之前上一篇redis主从原理,从库会记录自己同步主库的进度,这个参数为 slave_repl_offset , 是累加的,也就是这个值越大,那么它们谁同步的数据就是最新的,得分就是最高的,选举就结束了,如果复制进度相同,那么还需要进入下一轮,比较ID。看图:
在这里插入图片描述第三轮:ID号越小,得分越高

比较自己的ID【redis在启动的时候,会给自己分配一个ID】,ID越小,自己得分就越高。
在这里插入图片描述最多经历三轮打分,主库就会被重新选出,那么哨兵就会通知其他从库执行replicaof 指向新的主库,进行主从切换,这里有一个细节,需要注意,不知道你没有想到,就是由哪个哨兵来执行主从切换呢?

哨兵选举Leader

其实由哪个哨兵来进行发号施令,进行主从切换,这个哨兵是需要进行选举的其实由哪个哨兵来进行发号施令,进行主从切换,这个哨兵是需要进行选举的。

本篇前面说过,判断主库是否下线是需要进行主观下线和客观下线两个过程,自己先标记为主观下线,当多数都标记为主观下线的时候,那么就认为客观下线了,那么这个多数应该是多少呢,其实是通过quorum配置项配置的,如果我们有三个哨兵,quorum 配置为2 ,那么除了自己判断主观下线,还需要一个哨兵也需要判断为主观下线,那么此时才会进入客观下线了,这个判断的过程,其实就是一个投票的过程,包括自己给自己投一票,还包括向其他实例发送 is-master-down-by-addr 命令,询问其他实例,自己判断的这个主库是不是下下了,如果得到对方的响应,那么自己的票数就累加,哨兵投过票了,就不会给其他哨兵再次投票了。

这里具体看图:
在这里插入图片描述这个图只是简单地为了说明,哨兵B和哨兵C都发现了redis Master 主观下线了,但是哨兵B 优先给其他哨兵发了 is-master-down-by-addr 命令,并得到了哨兵C的回复,那么加上自己给自己的投票,那么就是得票数为2 ,大于等于 quorum的配置值 2,此时主库标记为客观下线.

如果哨兵B 要想成为Leader,那么还要同时满足得到的票数大于等于哨兵(n/2 + 1)数量才可以成为leader,这里由于我们有三个哨兵,票数过半的话,也就是大于等于2,所以此时哨兵B可以成为Leader了。

所以称为leader要满足的条件为:

得到的票数要达到配置的quorum阀值。
获得哨兵半数以上的票数。

通知

哨兵B Leader 可以主持主从切换了,通知其他从库执行replicaof 到新的Master,主从切换完成之后,还会通知连接redis 的客户端,告诉它们新的Master的地址和端口。

这里在说下是怎么通知redis 客户端 Master要换新的ip和端口了呢?

其实redis客户端可以定于哨兵的主从切换事件,当完成主从切换后,哨兵就发送这个事件的结果,那么订阅了这个事件的redis客户端都会收到通知,此时redis客户端就可以更新到新的Master的地址了。

如果出现网络断开或者抖动,没有收到订阅事件的通知,那么其实还可以调用哨兵提供的接口,进行重新拉取。

通知模型:
在这里插入图片描述总结

今天主要是熟悉哨兵的工作原理和过程,下面来做下总结:

哨兵都干了什么?

监控、选主、通知。

监控:

监控主从节点是否下线,从节点可以简单认为没有收到响应就直接下线,因为从节点下线一般不会影响到集群的使用。

主节点的下线,分为主观下线和客观下线,只有在多数都认为是主观下线了,才认为是客观下线了。

选主:

首先进行筛选,把标记为下线的从库,网络不稳定的从库晒出掉。

接下来进行打分,主要会分三个阶段:分别从 从库的优先级、复制进度、ID大小来进行打分。

通知:

通知其他从库执行replicaof 到新的Master,主从切换完成之后,还会通知连接redis 的客户端,告诉它们新的Master的地址和端口。

哨兵选举过程:
哨兵投票机制:

a:哨兵实例只有在自己判定主库下线时,才会给自己投票,而其他的哨兵实例会把票投给第一个来要票的请求,其后的都拒绝。

b:如果出现多个哨兵同时发现主库下线并给自己投票,导致投票选举失败,就会触发新一轮投票,直至成功。

哨兵成为Leader的必要条件:

a:获得半数以上的票数。

b:得到的票数要达到配置的quorum阀值。

注意的点

在master关掉 到 主从切换完成,通知完客户端,这个期间,所有的写请求是不能处理的,因为master已经挂掉了,如果采用的是读写分离,所有的读请求就是可以正常处理的,读请求会被分到从库上去。如果此时想让业务感知不到异常,可以采取相应的降级策略,可以让写请求先写入到mq中,等待恢复之后,再写入到新的master就可以了。

这里在强调一下哨兵进行主从切换的前提条件,必须要选择出哨兵Leader,由Leader进行通知从进行主从切换和通知客户端更换新的Master的地址和端口。

在这里举个例子,如果有5个哨兵,quorum 配置为2,那么要想成为Leader,那么获得票数必须要达到2 才能判断一个主库为客观下线,同时获得票数也要大于等于(n/2) + 1 的票数,也就是获得3以上才可以。如果此时有3个哨兵故障了,即使你获得了2票,能判断为客观下线,那么由于没有过半的哨兵数量,也是无法选举出Leader ,也就无法进行下面的过程了,此时集群就玩完了。

问题

这里给大家留一个问题,我们知道可以通过下面命令进行哨兵集群的搭建:

sentinel monitor

这里只是设置了 ip 和端口,以及quorum值,那么整个集群之间是怎么建立通信,进而能后续的选举leader做准备,同时它又是怎么获得从库的ip和端口列表,进而来做后续的从库的监控。

最后,欢迎关注公众号(微信搜索公众号:首席架构师专栏),里面有许多技术干货,也有我对技术的思考和感悟,还有作为架构师的验验分享;关注后回复 【面试题】,有我准备的面试题、架构师大型项目实战视频等福利 , 小编会带着你一起学习、成长,让我们一起加油!!!

原文链接:https://juejin.cn/post/6986567805386620941

这篇关于腾讯三面:哨兵挂了,Redis还能正常工作吗?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/957735

相关文章

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

工作常用指令与快捷键

Git提交代码 git fetch  git add .  git commit -m “desc”  git pull  git push Git查看当前分支 git symbolic-ref --short -q HEAD Git创建新的分支并切换 git checkout -b XXXXXXXXXXXXXX git push origin XXXXXXXXXXXXXX

嵌入式方向的毕业生,找工作很迷茫

一个应届硕士生的问题: 虽然我明白想成为技术大牛需要日积月累的磨练,但我总感觉自己学习方法或者哪些方面有问题,时间一天天过去,自己也每天不停学习,但总感觉自己没有想象中那样进步,总感觉找不到一个很清晰的学习规划……眼看 9 月份就要参加秋招了,我想毕业了去大城市磨练几年,涨涨见识,拓开眼界多学点东西。但是感觉自己的实力还是很不够,内心慌得不行,总怕浪费了这人生唯一的校招机会,当然我也明白,毕业

Redis中使用布隆过滤器解决缓存穿透问题

一、缓存穿透(失效)问题 缓存穿透是指查询一个一定不存在的数据,由于缓存中没有命中,会去数据库中查询,而数据库中也没有该数据,并且每次查询都不会命中缓存,从而每次请求都直接打到了数据库上,这会给数据库带来巨大压力。 二、布隆过滤器原理 布隆过滤器(Bloom Filter)是一种空间效率很高的随机数据结构,它利用多个不同的哈希函数将一个元素映射到一个位数组中的多个位置,并将这些位置的值置

husky 工具配置代码检查工作流:提交代码至仓库前做代码检查

提示:这篇博客以我前两篇博客作为先修知识,请大家先去看看我前两篇博客 博客指路:前端 ESlint 代码规范及修复代码规范错误-CSDN博客前端 Vue3 项目开发—— ESLint & prettier 配置代码风格-CSDN博客 husky 工具配置代码检查工作流的作用 在工作中,我们经常需要将写好的代码提交至代码仓库 但是由于程序员疏忽而将不规范的代码提交至仓库,显然是不合理的 所

Lua 脚本在 Redis 中执行时的原子性以及与redis的事务的区别

在 Redis 中,Lua 脚本具有原子性是因为 Redis 保证在执行脚本时,脚本中的所有操作都会被当作一个不可分割的整体。具体来说,Redis 使用单线程的执行模型来处理命令,因此当 Lua 脚本在 Redis 中执行时,不会有其他命令打断脚本的执行过程。脚本中的所有操作都将连续执行,直到脚本执行完成后,Redis 才会继续处理其他客户端的请求。 Lua 脚本在 Redis 中原子性的原因

未来工作趋势:零工小程序在共享经济中的作用

经济在不断发展的同时,科技也在飞速发展。零工经济作为一种新兴的工作模式,正在全球范围内迅速崛起。特别是在中国,随着数字经济的蓬勃发展和共享经济模式的深入推广,零工小程序在促进就业、提升资源利用效率方面显示出了巨大的潜力和价值。 一、零工经济的定义及现状 零工经济是指通过临时性、自由职业或项目制的工作形式,利用互联网平台快速匹配供需双方的新型经济模式。这种模式打破了传统全职工作的界限,为劳动

Smarty模板引擎工作机制(一)

深入浅出Smarty模板引擎工作机制,我们将对比使用smarty模板引擎和没使用smarty模板引擎的两种开发方式的区别,并动手开发一个自己的模板引擎,以便加深对smarty模板引擎工作机制的理解。 在没有使用Smarty模板引擎的情况下,我们都是将PHP程序和网页模板合在一起编辑的,好比下面的源代码: <?php$title="深处浅出之Smarty模板引擎工作机制";$content=

laravel框架实现redis分布式集群原理

在app/config/database.php中配置如下: 'redis' => array('cluster' => true,'default' => array('host' => '172.21.107.247','port' => 6379,),'redis1' => array('host' => '172.21.107.248','port' => 6379,),) 其中cl