ganglia监控hadoop各项指标含义

2024-05-11 12:48

本文主要是介绍ganglia监控hadoop各项指标含义,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

监控指标大致如下:  

default.shuffleInput  

dfs.datanode  

jvm  

mapred.shuffleOutput  

rpc  

metricssystem  



dfs.datanode.blockChecksumOp_avg_time 块校验平均时间  
dfs.datanode.blockChecksumOp_num_ops 块检验次数  
dfs.datanode.blockReports_avg_time 块报告平均时间  
dfs.datanode.blockReports_num_ops 块报告次数  
dfs.datanode.block_verification_failures 块验证失败次数  
dfs.datanode.blocks_read 从硬盘读块总次数  
dfs.datanode.blocks_removed 删除块数目  
dfs.datanode.blocks_replicated 块复制总次数  
dfs.datanode.blocks_verified 块验证总次数  
dfs.datanode.blocks_written 向硬盘写块总次数  
dfs.datanode.bytes_read 读出总字节包含crc验证文件字节数  
dfs.datanode.bytes_written 写入总字节数(在写入每个packet时计数)  
dfs.datanode.copyBlockOp_avg_time 复制块平均时间 (单位ms)  
dfs.datanode.copyBlockOp_num_ops 复制块次数  
dfs.datanode.heartBeats_avg_time 向namenode汇报平均时间  
dfs.datanode.heartBeats_num_ops 向namenode汇报总次数  
dfs.datanode.readBlockOp_avg_time 读块平均时间(单位ms)  
dfs.datanode.readBlockOp_num_ops 读块总次数 一般和dfs.datanode.blocks_read 一致,先从硬盘读入输入流,增加dfs.datanode.blocks_read 计数,然后再增加该计数  
dfs.datanode.reads_from_local_client 从本地读入块次数  
dfs.datanode.reads_from_remote_client 从远程读入块次数  
dfs.datanode.replaceBlockOp_avg_time 替换块平均时间(负载均衡策略)  
dfs.datanode.replaceBlockOp_num_ops 替换块次数(负载均衡策略)  
dfs.datanode.volumeFailures notfound 和block拥有的volume 失败有关  
dfs.datanode.writeBlockOp_avg_time 写块平均时间  
dfs.datanode.writeBlockOp_num_ops 写块总次数一般和dfs.datanode.blocks_written 一致,先从硬盘,增加dfs.datanode.blocks_read 计数,然后再增加该计数  
dfs.datanode.writes_from_local_client 写本地次数  
dfs.datanode.writes_from_remote_client 写远程次数  
jvm.metrics.gcCount gc总次数  
jvm.metrics.gcTimeMillis gc总耗时(ms)  
jvm.metrics.logError jvm error 次数  
jvm.metrics.logFatal jvm出现fatal次数  
jvm.metrics.logInfo jvm info出现次数  
jvm.metrics.logWarn jvm warn出现次数  
jvm.metrics.maxMemoryM jvm试图使用最大内存(M),如果没有限制返回Long.MAX_VALUE  
jvm.metrics.memHeapCommittedM jvm提交堆内存大小  
jvm.metrics.memHeapUsedM jvm使用堆内存大小  
jvm.metrics.memNonHeapCommittedM jvm非堆内存已提交大小  
jvm.metrics.memNonHeapUsedM jvm非堆内存已使用大小  
jvm.metrics.threadsBlocked 正在阻塞等待监视器锁的线程数目  
jvm.metrics.threadsNew 尚未启动的线程数目  
jvm.metrics.threadsRunnable 正在执行状态的线程数目  
jvm.metrics.threadsTerminated 已退出线程数目  
jvm.metrics.threadsTimedWaiting 等待另一个线程执行取决于指定等待时间的操作的线程数目  
jvm.metrics.threadsWaiting 无限期地等待另一个线程来执行某一特定操作的线程数目  




rpc.metrics.NumOpenConnections                     number of open connections rpc连接打开的数目  
rpc.metrics.ReceivedBytes                          number of bytes received rpc收到的字节数  
rpc.metrics.RpcProcessingTime_avg_time             Average time for RPC Operations in last interval rpc在最近的交互中平均操作时间                    
rpc.metrics.RpcProcessingTime_num_ops              rpc在最近的交互中连接数目  
rpc.metrics.RpcQueueTime_avg_time                  rpc在交互中平均等待时间  
rpc.metrics.RpcQueueTime_num_ops                 rpc queue中完成的rpc操作数目  
rpc.metrics.SentBytes                              number of bytes sent  rpc发送的数据字节  
rpc.metrics.callQueueLen                           length of the rpc queue  rpc 队列长度  
rpc.metrics.rpcAuthenticationFailures              number of failed authentications  rpc 验证失败次数  
rpc.metrics.rpcAuthenticationSuccesses             number of successful authentications   验证成功数  
rpc.metrics.rpcAuthorizationFailures               number of failed authorizations   授权失败次数  
rpc.metrics.rpcAuthorizationSuccesses              number of successful authorizations  成功次数  



mapred.shuffleInput.shuffle_failed_fetches     从map输出中取数据过程中获取失败次数      
mapred.shuffleInput.shuffle_fetchers_busy_percent   在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比  
mapred.shuffleInput.shuffle_input_bytes              shuffle过程中读入数据字节  
mapred.shuffleInput.shuffle_success_fetches    从map输出中取数据过程中获取成功次数   
mapred.shuffleOutput.shuffle_failed_outputs    向reduce发送map输出失败次数  
mapred.shuffleOutput.shuffle_handler_busy_percent    向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。  
mapred.shuffleOutput.shuffle_output_bytes            shuffle过程中输出数据字节  
mapred.shuffleOutput.shuffle_success_outputs         向reduce成功  
mapred.tasktracker.mapTaskSlots                设置map槽数  
mapred.tasktracker.maps_running                正在运行的map数  
mapred.tasktracker.reduceTaskSlots             设置reduce槽数  
mapred.tasktracker.reduces_running             正在运行的reduce数  
mapred.tasktracker.tasks_completed             完成任务数       
mapred.tasktracker.tasks_failed_ping           因tasktracker与task交互失败导致的失败的task数目  
mapred.tasktracker.tasks_failed_timeout        因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目  
rpc.detailed-metrics.canCommit_avg_time        rpc询问是否提交任务平均时间  
rpc.detailed-metrics.canCommit_num_ops         rpc询问是否提交任务次数  
rpc.detailed-metrics.commitPending_avg_time    rpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间  
rpc.detailed-metrics.commitPending_num_ops     rpc报告任务提交完成,但是该提交仍然处于pending状态的次数  
rpc.detailed-metrics.done_avg_time             rpc报告任务成功完成的平均时间  
rpc.detailed-metrics.done_num_ops              rpc报告任务成功完成的次数  
rpc.detailed-metrics.fatalError_avg_time       rpc报告任务出现fatalerror的平均时间  
rpc.detailed-metrics.fatalError_num_ops        rpc报告任务出现fatalerror的次数  
rpc.detailed-metrics.getBlockInfo_avg_time     从指定datanode获取block的平均时间  
rpc.detailed-metrics.getBlockInfo_num_ops      从指定datanode获取block的次数  
rpc.detailed-metrics.getMapCompletionEvents_avg_time  reduce获取已经完成的map输出地址事件的平均时间  
rpc.detailed-metrics.getMapCompletionEvents_num_ops   reduce获取已经完成的map输出地址事件的次数  
rpc.detailed-metrics.getProtocolVersion_avg_time      获取rpc协议版本信息的平均时间  
rpc.detailed-metrics.getProtocolVersion_num_ops       获取rpc协议版本信息的次数  
rpc.detailed-metrics.getTask_avg_time                 当子进程启动后,获取jvmtask的平均时间  
rpc.detailed-metrics.getTask_num_ops                  当子进程启动后,获取jvmtask的次数  
rpc.detailed-metrics.ping_avg_time                    子进程周期性的检测父进程是否还存活的平均时间  
rpc.detailed-metrics.ping_num_ops                     子进程周期性的检测父进程是否还存活的次数  
rpc.detailed-metrics.recoverBlock_avg_time             为指定的block开始恢复标记生成的平均时间  
rpc.detailed-metrics.recoverBlock_num_ops              为指定的block开始恢复标记生成的次数  
rpc.detailed-metrics.reportDiagnosticInfo_avg_time     向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存  
rpc.detailed-metrics.reportDiagnosticInfo_num_ops      向父进程报告任务错误消息的次数  
rpc.detailed-metrics.startBlockRecovery_avg_time       开始恢复block的平均时间  
rpc.detailed-metrics.startBlockRecovery_num_ops        开始恢复block的次数  
rpc.detailed-metrics.statusUpdate_avg_time             汇报子进程进度给父进程的平均时间  
rpc.detailed-metrics.statusUpdate_num_ops              汇报子进程进度给父进程的次数  
rpc.detailed-metrics.updateBlock_avg_time              更新block到新的标记及长度的平均操作时间  
rpc.detailed-metrics.updateBlock_num_ops               更新block到新的标记及长度的次数

HBASE监控项翻译

hbase.regionserver.blockCacheCount  内存中缓存块(block cache)数。缓存中StoreFiles(HFiles)的块(block)数量。

hbase.regionserver.blockCacheEvictedCount  :因超出堆大小限制,从缓存中释放的块数量。

hbase.regionserver.blockCacheFree: 可用的缓存块容量。

hbase.regionserver.blockCacheHitCachingRatio:缓存块的缓存命中率(0-100)。读取的缓存命中率被配置为查看缓存(如cacheblocks=true)。

hbase.regionserver.blockCacheHitCount  :StoreFiles(HFiles)从缓存中读取的块数量。

hbase.regionserver.blockCacheHitRatio:缓存块的命中率(0-100).包括所有读请求,尽管cacheBlocks=false的读出会被计为cache丢失。

hbase.regionserver.blockCacheMissCount:StoreFiles (HFiles)请求但是未从缓存中读出的块数量。

hbase.regionserver.blockCacheSize:内存中块缓存的容量,特指被blockcache占用的内存容量。

hbase.regionserver.compactionQueueSize :Compaction队列大小,用于compactionRegionServer中的Store个数。

hbase.regionserver.flushQueueSize :MemStore中等待flush操作的排队region数量。

hbase.regionserver.fsReadLatency_avg_time :文件系统延迟(ms)。从HDFS读操作的平均时间。

hbase.regionserver.memstoreSizeMB   :当前RegionServer中所有Memstore的总容量(MB)。

hbase.regionserver.requests :总 的读和写请求次数。请求相当于RegionServer的RPC调用,因此一个Get相当于一次请求,但是哪怕Scan的caching值设置为 1000,对SCAN每个“下一次”调用仅相当于一次请求,(例如,非每行)。对于大数据块的请求,每个 HFile对应一次请求。

hbase.regionserver.storefileIndexSizeMB:RegionServer中 StoreFile文件索引大小的总和(MB)。

这篇关于ganglia监控hadoop各项指标含义的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/979584

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

kubernetes集群部署Zabbix监控平台

一、zabbix介绍 1.zabbix简介 Zabbix是一个基于Web界面的分布式系统监控的企业级开源软件。可以监视各种系统与设备的参数,保障服务器及设备的安全运营。 2.zabbix特点 (1)安装与配置简单。 (2)可视化web管理界面。 (3)免费开源。 (4)支持中文。 (5)自动发现。 (6)分布式监控。 (7)实时绘图。 3.zabbix的主要功能

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html

java后端服务监控与告警:Prometheus与Grafana集成

Java后端服务监控与告警:Prometheus与Grafana集成 大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿! 在现代的微服务架构中,监控和告警是确保服务稳定性的关键组成部分。Prometheus和Grafana是两个强大的工具,它们可以集成在一起,为Java后端服务提供实时监控和可视化告警。 服务监控的重要性 服务监控可以帮助我们实时了解服务的健