ZooKeeper 选举机制FasterLeaderElection详解

2024-04-01 14:38

本文主要是介绍ZooKeeper 选举机制FasterLeaderElection详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

    • 选举方式
    • 选举内容
    • 选举机制

ZooKeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是选举模式同步模式。当服务启动或者在领导者崩溃后,Zab就进入了选举模式,当领导者被选举出来,且大多数Server完成了和leader的状态同步以后,选举模式就结束了。状态同步保证了leader和Server具有相同的系统状态。

1. 选举方式

ZooKeeper提供三种选举方式,分别是

  • FasterLeaderElection
  • AuthFastLeaderElection
  • LeaderElection.

默认采用的是类似Fast Paxos算法的FasterLeaderElection

至于Fast Paxos算法见 分布式 了解Paxos和Fast Paxos算法

为了保证事务的顺序一致性,zookeeper采用了递增的事务id号(zxid)来标识事务。所有的提议(proposal)都在被提出的时候加上了zxid。实现中zxid是一个64位的数字,它高32位是epoch用来标识leader关系是否改变,每次一个leader被选出来,它都会有一个新的epoch,标识当前属于那个leader的统治时期。低32位用于递增计数。

2. 选举内容

  1. ServerId (zoo.cfg文件中server.x中的x和myid文件中的数字) Server编号,越大权重越大
  2. Zxid(运行时产生的数据id)存储最大的数据id,数值越大权重越大
  3. Epoch(数字时钟) 投票次数,用来标记当前选举
  4. 选举状态 有四种:

    • LOOKING:启动时状态 竞选状态
    • OBSERVING:观察状态 同步Leader状态 不参与投票
    • FOLLOWING:随从状态 同步Leader状态 参与投票
    • LEADING:领导状态

3. 选举机制

在了解选举机制之前我们先要知道几个概念

1.一个Server是如何知道其它的Server的?

在ZooKeeper集群中,Server的信息都在zoo.conf配置文件中,根据配置文件的信息就可以知道其它Server的信息。

2.成为Leader的必要条件?

Leader要具有最高的zxid,并且集群中的大多数机器(至少n/2+1)得到相应并且选举该Leader

3.如果所有zxid都相同(刚初始化时所有的Server的epoch和zxid都是相同的),此时有可能不能形成n/2+1个Server,怎么办?

ZooKeeper中每一个Server都有一个ID,这个ID是不重复的,如果遇到这样的情况时,ZooKeeper就推荐ID最大的哪个Server作为Leader。

4.ZooKeeper中Leader怎么知道Follwer还存活,Follwer怎么知道Leader还存活?

Leader定时向Follwer发ping消息,Follwer定时向Leader发ping消息,当发现Leader无法ping通时,就改变自己的状态(LOOKING),发起新的一轮选举。

接下来我们来看选举机制:

在FasterLeaderElection中一个内部类Messenger,其中有两个线程WorkerReceiver和WorkSender,功能就和名字一样,分别用来接收和发送选举信息。

synchronized(this){//逻辑时钟           logicalclock++;//getInitLastLoggedZxid(), getPeerEpoch()这里先不关心是什么,后面会讨论updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch());
}//getInitId() 即是获取选谁,id就是myid里指定的那个数字,所以说一定要唯一
private long getInitId(){if(self.getQuorumVerifier().getVotingMembers().containsKey(self.getId()))       return self.getId();else return Long.MIN_VALUE;
}//发送选举信息,异步发送
sendNotifications();

当集群初始化时或者是Leader无法连通时,就需要进行新一轮的选举。首先集群中的每个节点,默认都是把票投给自己的,于是把选举信息(serverid,zxid和epoch)向其他节点广播,选举信息首先被放入WorkerSender内的一个队列中,之后从队列中取出选票交付给QuorumCnxManager发送

public void toSend(Long sid, ByteBuffer b) {if (self.getId() == sid) {b.position(0);addToRecvQueue(new Message(b.duplicate(), sid));} else {//发送给别的节点,判断之前是不是发送过if (!queueSendMap.containsKey(sid)) {//这个SEND_CAPACITY的大小是1,所以如果之前已经有一个还在等待发送,则会把之前的一个删除掉,发送新的ArrayBlockingQueue<ByteBuffer> bq = new ArrayBlockingQueue<ByteBuffer>(SEND_CAPACITY);queueSendMap.put(sid, bq);addToSendQueue(bq, b);} else {ArrayBlockingQueue<ByteBuffer> bq = queueSendMap.get(sid);if(bq != null){addToSendQueue(bq, b);} else {LOG.error("No queue for server " + sid);}}//这里是真正的发送逻辑了connectOne(sid);}}

connectOne就是真正发送了。在发送之前会先把自己的id和选举地址发送过去。然后判断要发送节点的id是不是比自己的id大,如果大则不发送了。如果要发送又是启动两个线程:SendWorker,RecvWorker(这种一个进程内许多不同种类的线程,各自干活的状态真的很难理解)。发送逻辑还算简单,就是从刚才放到那个queueSendMap里取出,然后发送。并且发送的时候将发送出去的东西放到一个lastMessageSent的map里,如果queueSendMap里是空的,就发送lastMessageSent里的东西,确保对方一定收到了。

接下来来看数据接收的逻辑,根据当前Server的状态分为LOOKING状态和其他状态两种情况

1.LOOKING状态

  • 首先判断接收到的选举信息的逻辑时钟epoch
    • 如果该epoch大于当前Server的epoch –> 当前数据过期 –> 更新当前epoch,同时清空选举数据,再判断是否需要更新选举情况
    • 如果该epoch小于当前Server的epoch –> 对方数据过期 –> 把本机数据(Leader.ServerId,Zxid,Epoch)发送给该Server
    • 如果该epoch等于当前Server的epoch –> 直接进入判断逻辑
  • epoch相等的情况下先判断zxid –> 大者获胜
  • zxid也相等的就判断ServerId –> 大者获胜

结果:
1. 接收到了所有Server的选举信息,根据选举信息决定当前Server的状态(Leading/Following),结束Looking状态,退出选举
2. 没有接收到所有的选举信息,判断投票数是否超过半数,设置当前Server状态

2.其他状态(FOLLOWING/LEADING)

  1. 如果逻辑时钟Epoch相同,将该数据保存到recvset,如果所接收服务器宣称自己是leader,那么将判断是不是有半数以上的服务器选举它,如果是则设置选举状态退出选举过程
  2. 否则这是一条与当前逻辑时钟不符合的消息,那么说明在另一个选举过程中已经有了选举结果,于是将该选举结果加入到outofelection集合中,再根据outofelection来判断是否可以结束选举,如果可以也是保存逻辑时钟,设置选举状态,退出选举过程。
protected boolean totalOrderPredicate(long newId, long newZxid, long newEpoch, long curId, long curZxid, long curEpoch) {return ((newEpoch > curEpoch) || ((newEpoch == curEpoch) &&((newZxid > curZxid) || ((newZxid == curZxid) && (newId > curId)))));}
private boolean termPredicate(HashMap<Long, Vote> votes,Vote vote) {HashSet<Long> set = new HashSet<Long>();//遍历已经收到的投票集合,将等于当前投票的集合取出放到set中for (Map.Entry<Long,Vote> entry : votes.entrySet()) {if (self.getQuorumVerifier().getVotingMembers().containsKey(entry.getKey())&& vote.equals(entry.getValue())){set.add(entry.getKey());}}//统计set,也就是投某个id的票数是否超过一半return self.getQuorumVerifier().containsQuorum(set);}public boolean containsQuorum(Set<Long> ackSet) {return (ackSet.size() > half);}

一个小问题 一个集群有3台机器,挂了一台后的影响是什么?挂了两台呢?

挂了一台:挂了一台后就是收不到其中一台的投票,但是有两台可以参与投票,按照上面的逻辑,它们开始都投给自己,后来按照选举的原则,两个人都投票给其中一个,那么就有一个节点获得的票等于2,2 > (3/2)=1 的,超过了半数,这个时候是能选出leader的。

挂了两台: 挂了两台后,怎么弄也只能获得一张票, 1 不大于 (3/2)=1的,这样就无法选出一个leader了

再看一个选举流程的实例:

目前有5台Server,每台Server均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下:

  1. Server1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,Server1的状态一直属于Looking。
  2. Server2启动,给自己投票,同时与之前启动的Server1交换结果,由于Server2的编号大所以Server2胜出,但此时投票数没有大于半数,所以两个Server的状态依然是LOOKING。
  3. Server3启动,给自己投票,同时与之前启动的Server1,2交换信息,由于Server3的编号最大所以Server3胜出,此时投票数正好大于半数,所以Server3成为领导者,Server1,2成为小弟。
  4. Server4启动,给自己投票,同时与之前启动的Server1,2,3交换信息,尽管Server4的编号大,但之前Server3已经胜出,所以Server4只能成为小弟。
  5. Server5启动,后面的逻辑同Server4成为小弟。

这篇关于ZooKeeper 选举机制FasterLeaderElection详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/867416

相关文章

一文详解Java异常处理你都了解哪些知识

《一文详解Java异常处理你都了解哪些知识》:本文主要介绍Java异常处理的相关资料,包括异常的分类、捕获和处理异常的语法、常见的异常类型以及自定义异常的实现,文中通过代码介绍的非常详细,需要的朋... 目录前言一、什么是异常二、异常的分类2.1 受检异常2.2 非受检异常三、异常处理的语法3.1 try-

Java中的@SneakyThrows注解用法详解

《Java中的@SneakyThrows注解用法详解》:本文主要介绍Java中的@SneakyThrows注解用法的相关资料,Lombok的@SneakyThrows注解简化了Java方法中的异常... 目录前言一、@SneakyThrows 简介1.1 什么是 Lombok?二、@SneakyThrows

Java中字符串转时间与时间转字符串的操作详解

《Java中字符串转时间与时间转字符串的操作详解》Java的java.time包提供了强大的日期和时间处理功能,通过DateTimeFormatter可以轻松地在日期时间对象和字符串之间进行转换,下面... 目录一、字符串转时间(一)使用预定义格式(二)自定义格式二、时间转字符串(一)使用预定义格式(二)自

Redis Pipeline(管道) 详解

《RedisPipeline(管道)详解》Pipeline管道是Redis提供的一种批量执行命令的机制,通过将多个命令一次性发送到服务器并统一接收响应,减少网络往返次数(RTT),显著提升执行效率... 目录Redis Pipeline 详解1. Pipeline 的核心概念2. 工作原理与性能提升3. 核

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结 概念、作用和步骤概念: 本身也是一个字符串,其中

Nginx location匹配模式与规则详解

《Nginxlocation匹配模式与规则详解》:本文主要介绍Nginxlocation匹配模式与规则,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、环境二、匹配模式1. 精准模式2. 前缀模式(不继续匹配正则)3. 前缀模式(继续匹配正则)4. 正则模式(大

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Android实现在线预览office文档的示例详解

《Android实现在线预览office文档的示例详解》在移动端展示在线Office文档(如Word、Excel、PPT)是一项常见需求,这篇文章为大家重点介绍了两种方案的实现方法,希望对大家有一定的... 目录一、项目概述二、相关技术知识三、实现思路3.1 方案一:WebView + Office Onl

Java实现优雅日期处理的方案详解

《Java实现优雅日期处理的方案详解》在我们的日常工作中,需要经常处理各种格式,各种类似的的日期或者时间,下面我们就来看看如何使用java处理这样的日期问题吧,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言一、日期的坑1.1 日期格式化陷阱1.2 时区转换二、优雅方案的进阶之路2.1 线程安全重构2

Java中的JSONObject详解

《Java中的JSONObject详解》:本文主要介绍Java中的JSONObject详解,需要的朋友可以参考下... Java中的jsONObject详解一、引言在Java开发中,处理JSON数据是一种常见的需求。JSONObject是处理JSON对象的一个非常有用的类,它提供了一系列的API来操作J