Hadoop 生态圈 ————ZooKeeper组件

本文主要是介绍Hadoop 生态圈 ————ZooKeeper组件，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ZooKeeper是一个开源的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态，根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口、性能高效和功能稳定的系统提供给用户。

ZooKeeper的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式（选主）和广播模式（同步）。当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和leader的状态同步以后，恢复模式就结束了。状态同步保证了leader和Server具有相同的系统状态。

ZooKeeper安装模式分为：单机模式安装、伪分布式安装和集群模式安装。

Zookeeper的特点：

（1）最终一致性：为客户端展示同一视图，这是ZooKeeper最重要的功能。

（2）可靠性：如果消息被一台服务器接受，那么它将被所有的服务器接受。

（3）实时性：ZooKeeper不能保证两个客户端能同时得到刚更新的数据，如果需要最新数据，应该在读数据之前调用sync()接口。

（4）等待无关（wait-free）：慢的或者失效的client不干预快速的client的请求。

（5）原子性：更新只能成功或者失败，没有中间状态。

（6）顺序性：所有Server，同一消息发布顺序一致。

用到ZooKeeper的系统：

（1）HDFS中的HA方案。

（2）YARN的HA方案。

（3）Hbase：必须依赖ZooKeeper，保存了Regionserver的心跳信息，和其他的一些关键信息。

（4）Flume：负载均衡，单点故障。

ZooKeeper的基本架构如下图所示：

（1）每个Server在内存中存储了一份数据。

（2）Zookeeper启动时，将从实例中选举一个leader（Paxos协议）。

（3）Leader负责处理数据更新等操作（Zab协议）。

（4）一个更新操作成功，当且仅当大多数Server在内存中成功修改数据。

Zookpeeper Server节点的数目一般为奇数，Leader选举算法采用了Paxos协议；Paxos核心思想：当多数Server写成功，则任务数据写成功。也就是说：如果有3个Server，则两个写成功即可，如果有4或5个Server，则三个写成功即可，Server数目一般为奇数（3、5、7...），如果有3个Server，则最多允许1个Server挂掉。

ZooKeeper主要负责Hadoop集群的一些数据管理问题，如：命名服务、配置管理、状态同步、集群管理、队列管理、分布式锁等。

ZooKeeper类似于文件系统+监测通知，它维护了一个类似文件系统的树形数据结构ZNode，ZNode节点下可以添加子节点或存储数据。

ZooKeeper集群是分布式的、一致性的集群，具有容错性、可扩展、高性能等优点，可以配置多个Server节点，官方推荐部署奇数个（2n+1个），集群只要有半数以上（n+1个）的Server节点存活就可以正常对外提供服务。

ZooKeeper采用写任意的方式，即对数据的修改可以提交给任意一个Server节点，而数据的读取是并行的，节点越多吞吐和响应能力越高。

ZooKeeper各个Server之间的数据同步依靠Zab协议，Zab协议有两种模式：恢复模式（选举）和广播模式（同步）。当ZooKeeper重启或者Leader节点荡掉后，Zab就进入恢复模式，当Leader选举成功且大多数Server完成了和Leader的状态同步后，Zab就进入广播模式。

ZooKeeper各个Server之间的选举通过Paxos算法。当Leader崩溃或者Leader失去大多数Follower时，ZooKeeper进入恢复模式重新选举Leader，如果某个Server获得半数以上的票数即成为新的Leader，ZooKeeper进入广播模式并同步数据状态，集群重新对外提供服务。