Ganglia环境搭建并监控Hadoop分布式集群

2024-06-01 11:08

本文主要是介绍Ganglia环境搭建并监控Hadoop分布式集群,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Ganglia环境搭建并监控Hadoop分布式集群

 

 

 

 

简介

Ganglia可以监控分布式集群中硬件资源的使用情况,例如CPU,内存,网络等资源。通过Ganglia可以监控Hadoop集群在运行过程中对集群资源的调度,作为简单地运维参考。

 

 

环境搭建流程

 

1、我们先在主机master01上面搭建好Ganglia环境

2、在master01主机上解压JDK和Hadoop到安装目录、修改配置文件

3、克隆出两台主机slave01,slave02并修改主机名和IP主机名映射、做免密码登录

4、启动Ganglia和Hadoop集群、实现wordcount实例

 

 

关闭防火墙和Selinux

关闭防火墙和Selinux是因为这两者会对Ganglia和Hadoop环境搭建造成影响,比如防火墙会导致集群间一些通信问题。

关闭防火墙

临时和永久关闭防火墙

临时:

service iptables stop

永久:

chkconfig iptables off


 

 

关闭Selinux

vi /etc/sysconfig/selinux

修改内容如下:

 

 

使配置生效:

setenforce 0


 

 

Ganglia单机环境搭建


Ganglia简介

    Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用户性能。

 

一、Ganglia组件

    Ganglia 监控套件包括三个主要部分:gmond,gmetad,和网页接口,通常被称为ganglia-web。

    Gmond :是一个守护进程,他运行在每一个需要监测的节点上,收集监测统计,发送和接受在同一个组播或单播通道上的统计信息 如果他是一个发送者(mute=no)他会收集基本指标,比如系统负载(load_one),CPU利用率。他同时也会发送用户通过添加C/Python模块来自定义的指标。 如果他是一个接收者(deaf=no)他会聚合所有从别的主机上发来的指标,并把它们都保存在内存缓冲区中。

    Gmetad:也是一个守护进程,他定期检查gmonds,从那里拉取数据,并将他们的指标存储在RRD存储引擎中。他可以查询多个集群并聚合指标。他也被用于生成用户界面的web前端。

    Ganglia-web :顾名思义,他应该安装在有gmetad运行的机器上,以便读取RRD文件。 集群是主机和度量数据的逻辑分组,比如数据库服务器,网页服务器,生产,测试,QA等,他们都是完全分开的,你需要为每个集群运行单独的gmond实例。

 

一般来说集群中每个节点需要一个接收的gmond,每个网站需要一个gmetad。

 

 

 

二、安装依赖

    注:建议使用超级用户安装

    yum install –y gcc gcc-c++ libpng freetype zlib libdbi apr* libxml2-devel pkg-config glib pixman pango pango-devel freetye-devel fontconfig cairo cairo-devel libart_lgpl libart_lgpl-devel pcre* rrdtool*


 

 

 

 

三、安装expat依赖

    cd /rootwget http://jaist.dl.sourceforge.net/project/expat/expat/2.1.0/expat-2.1.0.tar.gztar -xf expat-2.1.0.tar.gz && cd expat-2.1.0 && ./configure --prefix=/usr/local/expat && make && make install && cd ..


 

 

四、安装confuse

    wget http://ftp.twaren.net/Unix/NonGNU//confuse/confuse-2.7.tar.gz
tar -xf confuse-2.7.tar.gz && cd confuse-2.7 && ./configure CFLAGS=-fPIC --disable-nls --prefix=/usr/local/confuse && make && make install && cd ..


64bit机器需要拷贝动态链接库:

mkdir -p /usr/local/confuse/lib64 && cp -a -f /usr/local/confuse/lib/* /usr/local/confuse/lib64/


 

五、安装ganglia

    wget http://jaist.dl.sourceforge.net/project/ganglia/ganglia%20monitoring%20core/3.6.0/ganglia-3.6.0.tar.gztar -xf ganglia-3.6.0.tar.gz && cd ganglia-3.6.0 && ./configure --with-gmetad --enable-gexec --with-libconfuse=/usr/local/confuse --with-libexpat=/usr/local/expat --prefix=/usr/local/ganglia --sysconfdir=/etc/ganglia && make && make install && cd ..


 

 

六、服务端配置

    创建rrdtool数据目录,看$ganglia-3.2.0/web/conf.php里面的gmetad_root变量,并根据apache的运行用户创建权限,例如apache运行于apache用户上 。

    mkdir -p /var/lib/ganglia/rrds && mkdir -p /var/lib/ganglia/dwoo && chown -R root:root /var/lib/ganglia

    配置一个数据源,修改/etc/ganglia/gmetad.conf文件,同时将运行用户设置为rrdtool的目录权限用户,例如apache用户

    data_source "Hadoop" 192.168.1.108:8649setuid_username "root"

    说明:这里的 " hadoop " 表示的是集群的名称,后面的内容是这个集群中所包含的主机信息,也就是要监控的主机ip。

    添加自启动脚本

    cp -f ganglia-3.6.0/gmetad/gmetad.init /etc/init.d/gmetad && cp -f /usr/local/ganglia/sbin/gmetad /usr/sbin/gmetad && chkconfig --add gmetad

    启动gmetad服务

    service gmetad start

看见Starting GANGLIA gmetad: [ OK ]就代表运行正常了。 通过telnet localhost 8651验证gmetad是否正常。

 

 


 

七、客户端配置(gmond节点)

    本机安装如下:

    cp -f ganglia-3.6.0/gmond/gmond.init /etc/init.d/gmond && cp -f /usr/local/ganglia/sbin/gmond /usr/sbin/gmond && chkconfig --add gmond && gmond --default_config > /etc/ganglia/gmond.conf

对于生成的默认配置文件/etc/ganglia/gmond.conf需要做适当的修改

globals {user = root /*运行Ganglia的用户*/host_dmax = 120 /*secs */send_metadata_interval = 15 /*发送数据的时间间隔*/
}cluster {name = "hadoop" /*集群名称*/owner = "root" /*运行Ganglia的用户*/
}udp_send_channel {# mcast_join = 239.2.11.71 /*注释掉组播*/host = 192.168.1.108/*发送给安装gmetad的机器*/
}udp_recv_channel { #接受UDP包配置# mcast_join = 239.2.11.71# bind = 239.2.11.71
}

    其中name是将要在服务端进行的分组,是服务端的数据源。接下来开启服务

    service gmond start

看见Starting GANGLIA gmetad: [ OK ]代表启动成功。如果有失败,可以讲gmond.conf中的debug从0改为100,看更多的日志,然后进行排查。

 

 

 


八、服务端的WEB配置

    PHP程序需要依赖Apache来运行,因此需要安装如下依赖

    yum -y install php httpdservice httpd start //启动httpd 服务


九、测试安装是否成功

    vi /var/www/html/index.php

    输入:

    <?php phpinfo();?>

    保存,然后浏览器 localhost/index.php 

正常是看到php的信息。

 

 

    cd /rootwget http://jaist.dl.sourceforge.net/project/ganglia/ganglia-web/3.5.10/ganglia-web-3.5.10.tar.gz
tar -xf ganglia-web-3.5.10.tar.gz && cd ganglia-web-3.5.10 && make install && cd ..


这样 在/var/www/html/下 生成了 ganglia 目录

    注(可能出现的问题):

    Ganglia访问失败:

    There was an error collecting ganglia data (127.0.0.1:8652): fsockopen error: Permission denied

解决:

    需要关闭selinux:vi /etc/selinux/config,把SELINUX=enforcing改成SELINUX=disabled;需要重启机器。

    可以使用命令setenforce 0来关闭selinux而不需要重启,刷新页面,即可访问。但此方法只是一权宜之计。要想永久修改selinux设置,还是要使用第一种方法。 

    重启httpd服务器即可看到效果

    service httpd restart


    使用http://master/ganglia查看对应的ganglia信息。(注:master为运行gmetad的主机的hostname)

 

 

 

 

 

Ganglia集群配置

 

免密码登录

 

单机配置好后,现在来配置集群的:

把刚才配置的那台VMware中的虚拟机,使用克隆功能,克隆出两台,然后:

vi /etc/sysconfig/network   #修改主机名
vi /etc/hosts       #修改主机名和IP映射


三台主机IP、主机名、角色对应关系:


 

在每台主机中敲入如下命令,然后一直回车确认就可以了,如果是root用户,会在/root/.ssh目录下生成密钥文件。

ssh-keygen -t rsa


拷贝slave01上公钥到master01上面(slave02也需要)

 


然后通过命令拷贝三台主机公钥到authorized_keys文件

在master01主机上/root/.ssh目录下,slave01和slave02中id_rsa.pub也拷贝到这个目录,并且名称分别为slave01,slave02

cat id_rsa.pub >> authorized_keys
cat slave01 >> authorized_keys
cat slave02 >> authorized_keys


这时我们就可以免密码登录了

 

 

 

配置并开启Ganglia集群

 

永久关闭slave01,slave02上面的Ganglia服务端gmetad

 

 

查看Ganglia服务端gmetad和客户端gmond是否都开启

 

 

开启Apache的httpd服务

 

 

Ganglia监控图示:

 

 


 


Hadoop环境软件准备

首先需要将JDK以及Hadoop软件解压到需要安装的目录

安装JDK

配置Java到环境变量

 

 

验证Java环境是否安装好

 

 

 

安装Hadoop

把Hadoop添加到环境变量

 

 

拷贝master01上修改好的/etc/profile文件到其他两台主机

 

 

使环境变量立即生效

 

 

查看hadoop版本

 

 

建立data,name,tmp文件夹:后面配置文件中需要用到

 

 

 


Hadoop配置文件修改

 

hadoop-env.sh

在文件头添加如下内容

export JAVA_HOME=/usr/local/jdk1.7.0_80
export HADOOP_LOG_DIR=/usr/local/hadoop_repo/logs
export HADOOP_ROOT_LOGGER=DEBUG,DRFA


core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://master01:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop_repo/tmp</value>    
</property>
<!--<property><name>fs.trash.interval</name><value>1440</value></property>
-->
</configuration>

 

hdfs-site.xml

<configuration><property>  <name>dfs.namenode.name.dir</name>  <value>file:///usr/local/hadoop_repo/name</value>  </property>  <property>  <name>dfs.datanode.data.dir</name>  <value>file:///usr/local/hadoop_repo/data</value>  </property><property><name>dfs.namenode.checkpoint.dir</name><value>file:///usr/local/hadoop_repo/namesecondary</value></property><property><name>dfs.namenode.secondary.http-address</name><value>master01:9001</value></property><property><name>dfs.replication</name><value>1</value></property><property>  <name>dfs.webhdfs.enabled</name>  <value>true</value>  </property><property><name>dfs.permissions</name><value>false</value></property>
</configuration>

mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property>  <name>mapreduce.jobhistory.address</name>  <value>master01:10020</value>  </property>  <property>  <name>mapreduce.jobhistory.webapp.address</name>  <value>master01:19888</value>  </property><property><name>yarn.app.mapreduce.am.staging-dir</name><value>/history</value></property><property><name>mapreduce.jobhistory.done-dir</name><value>${yarn.app.mapreduce.am.staging-dir}/history/done</value></property><property><name>mapreduce.jobhistory.intermediate-done-dir</name><value>${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate</value></property><property><name>mapreduce.map.log.level</name><value>DEBUG</value></property><property><name>mapreduce.reduce.log.level</name><value>DEBUG</value></property>
</configuration> 

slaves

master01
slave01
slave02

yarn-env.sh

export JAVA_HOME=/usr/local/jdk1.7.0_80
export YARN_LOG_DIR=/usr/local/hadoop_repo/logs
export YARN_ROOT_LOGGER=DEBUG,DRFA

yarn-site.xml

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>master01</value></property><property>  <name>yarn.resourcemanager.address</name>  <value>master01:8032</value>  </property>  <property>  <name>yarn.resourcemanager.scheduler.address</name>  <value>master01:8030</value>  </property>  <property>  <name>yarn.resourcemanager.resource-tracker.address</name>  <value>master01:8031</value>  </property>  <property>  <name>yarn.resourcemanager.admin.address</name>  <value>master01:8033</value>  </property>  <property>  <name>yarn.resourcemanager.webapp.address</name>  <value>master01:8088</value>  </property><property>  <name>yarn.log-aggregation-enable</name>  <value>true</value>  </property>
</configuration>



Hadoop集群启动

 

启动HDFS

格式化:

 

 

启动dfs:

 

 

master01上面的hdfs进程:

 

 

slave01,slave02上面的hdfs进程:

 

 

HDFS的web页面: 192.168.33.181:50070/

 

 

 

 

 

启动yarn

启动yarn命令:

start-yarn.xml


Yarn的Web页面:192.168.33.181:8088

 

 

 

 

Wordcount实例运行

 

Wordcount实例所在jar包位置:

/usr/local/hadoop-2.6.0/share/hadoop/mapreduce


创建一个words文件,并写入如下文本:

vi words<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"> </span>



通过客户端查看HDFS文件系统目录:

hdfs dfs -ls -R /


 运行wordcount的脚本命令

hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount /input/words /output


HDFS文件系统路径页面示图:

 

 

HDFS页面查看运行结果目录:

 

 

通过Yarn的web页面查看实例运行状态,如下为实例运行结束的图示:

 

 

查看wordcount实例的运行结果:

hdfs dfs -text /output/part-r-00000



 

 

Ganglia监控Hadoop集群图

 

 

 

这篇关于Ganglia环境搭建并监控Hadoop分布式集群的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1020839

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3