Storm在Zookeeper中的目录结构

本文主要是介绍Storm在Zookeeper中的目录结构，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Posted by WeYo. 转载请注明出处：http://weyo.me/pages/techs/storm-with-zookeeper/

本文主要参考自 xumingming 的博文 Twitter Storm源代码分析之ZooKeeper中的目录结构。由于新版本的 Storm 在架构上有了较大的变化，相应的目录结构也有了一些改变。本文主要针对 0.9.x 版本的 Storm 的相关结构做了一些说明。

Storm 的集群运行与状态记录都是由其依赖的 ZooKeeper 完成的。在 ZooKeeper 的客户端可以直接查看相关节点信息。

[zk: localhost:2181(CONNECTED) 1] ls /storm
[workerbeats, errors, supervisors, storms, assignments]

从这里可以看出 Storm 在 ZooKeeper 的根节点下记录了5个集群相关属性节点: workerbeats, errors, supervisors, storms, assignments。具体的节点信息如下所示：

/-storm                     -- storm在zookeeper上的根目录||-/assignments            -- topology的任务分配信息|   ||   |-/{topology-id}      -- 这个下面保存的是每个|                            topology的assignments|                            信息包括： 对应的|                            nimbus上的代码目录,所有|                            task的启动时间,|                            每个task与机器、端口的映射||-/storms                 -- 这个目录保存所有正在运行|   |                        的topology的id|   ||   |-/{topology-id}      -- 这个文件保存这个topology|                            的一些信息，包括topology的|                            名字，topology开始运行的时|                            间以及这个topology的状态|                            (具体看StormBase类)||-/supervisors            -- 这个目录保存所有的supervisor|   |                        的心跳信息|   ||   |-/{supervisor-id}    -- 这个文件保存的是supervisor|                            的心跳信息包括:心跳时间，主|                            机名，这个supervisor上worker|                            的端口号运行时间|                            (具体看SupervisorInfo类)||-/workerbeats            -- 所有worker的心跳|   ||   |-/{topology-id}      -- 这个目录保存这个topology的所|       |                    有的worker的心跳信息|       ||       |-/{worker-id}    -- worker的心跳信息||-/errors                 -- 所有component所产生的error信息||-/{topology-id}      -- 这个目录保存这个topology下面|                    所有component的出错信息(包括|                    topology的所有component与系|                    统的“_acker”||-/{component-id} -- 这个component的出错信息

对比原先的目录结构与现在的目录结构可以发现，最大变化的是将记录 task 信息改为了记录 worker 与 component 的信息。这种改变体现在 Storm 系统设计上就是实时计算组件的功能分离简化，将 Storm 集群的最小任务单元(task)剥离了工作线程的功能，使得 task 可以聚焦于实时数据处理任务，同时使集群负载调整更加灵活。有趣的是，Hadoop 也通过 Yarn 实现了集群组件功能的分离简化，这也是分布式计算系统的一个发展方向。

这篇关于Storm在Zookeeper中的目录结构的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！