本文主要是介绍Hadoop 生态圈 ————ZooKeeper组件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
ZooKeeper是一个开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态,根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口、性能高效和功能稳定的系统提供给用户。
ZooKeeper的核心是原子广播,这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式,它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后,Zab就进入了恢复模式,当领导者被选举出来,且大多数Server完成了和leader的状态同步以后,恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。
ZooKeeper安装模式分为:单机模式安装、伪分布式安装和集群模式安装。
Zookeeper的特点:
(1)最终一致性:为客户端展示同一视图,这是ZooKeeper最重要的功能。
(2)可靠性:如果消息被一台服务器接受,那么它将被所有的服务器接受。
(3)实时性:ZooKeeper不能保证两个客户端能同时得到刚更新的数据,如果需要最新数据,应该在读数据之前调用sync()接口。
(4)等待无关(wait-free):慢的或者失效的client不干预快速的client的请求。
(5)原子性:更新只能成功或者失败,没有中间状态。
(6)顺序性:所有Server,同一消息发布顺序一致。
用到ZooKeeper的系统:
(1)HDFS中的HA方案。
(2)YARN的HA方案。
(3)Hbase:必须依赖ZooKeeper,保存了Regionserver的心跳信息,和其他的一些关键信息。
(4)Flume:负载均衡,单点故障。
ZooKeeper的基本架构如下图所示:
(1)每个Server在内存中存储了一份数据。
(2)Zookeeper启动时,将从实例中选举一个leader(Paxos协议)。
(3)Leader负责处理数据更新等操作(Zab协议)。
(4)一个更新操作成功,当且仅当大多数Server在内存中成功修改数据。
Zookpeeper Server节点的数目一般为奇数,Leader选举算法采用了Paxos协议;Paxos核心思想:当多数Server写成功,则任务数据写成功。也就是说:如果有3个Server,则两个写成功即可,如果有4或5个Server,则三个写成功即可,Server数目一般为奇数(3、5、7...),如果有3个Server,则最多允许1个Server挂掉。
ZooKeeper主要负责Hadoop集群的一些数据管理问题,如:命名服务、配置管理、状态同步、集群管理、队列管理、分布式锁等。
ZooKeeper类似于文件系统+监测通知,它维护了一个类似文件系统的树形数据结构ZNode,ZNode节点下可以添加子节点或存储数据。
ZooKeeper集群是分布式的、一致性的集群,具有容错性、可扩展、高性能等优点,可以配置多个Server节点,官方推荐部署奇数个(2n+1个),集群只要有半数以上(n+1个)的Server节点存活就可以正常对外提供服务。
ZooKeeper采用写任意的方式,即对数据的修改可以提交给任意一个Server节点,而数据的读取是并行的,节点越多吞吐和响应能力越高。
ZooKeeper各个Server之间的数据同步依靠Zab协议,Zab协议有两种模式:恢复模式(选举)和广播模式(同步)。当ZooKeeper重启或者Leader节点荡掉后,Zab就进入恢复模式,当Leader选举成功且大多数Server完成了和Leader的状态同步后,Zab就进入广播模式。
ZooKeeper各个Server之间的选举通过Paxos算法。当Leader崩溃或者Leader失去大多数Follower时,ZooKeeper进入恢复模式重新选举Leader,如果某个Server获得半数以上的票数即成为新的Leader,ZooKeeper进入广播模式并同步数据状态,集群重新对外提供服务。
郑州新思齐科技有限公司
王亚辉
这篇关于Hadoop 生态圈 ————ZooKeeper组件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!