使用自定义 Grafana 面板监控 Consul

2024-09-05 09:48

本文主要是介绍使用自定义 Grafana 面板监控 Consul,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用自定义 Grafana 面板监控 Consul

使用 Prometheus和 Grafana监控 Consul,Dashboard 中的基本都是Consul 自身的状态,除此之外,还需要一些业务相关的监控,比如当前注册的服务数量,健康和不健康的服务数量,拉取服务请求响应时间等数据

使用已有的 Dashboard

如使用 consul server 这个面板,这个面板数据非常齐全,但是在 Prometheus 中添加了任务之后,发现很多数据都没有,如集群中 server的数量 consul_serf_lan_members 这个数据,从 Consul 的 Metrics 中 http://localhost:8500/v1/agent/metrics?format=prometheus拉取也没有相关的数据,是因为Consul并没有提供相应的数据检测

针对这种问题,可以使用 consul_exporter 这个项目,该项目会通过 Consul 的API 拉取相应的数据,在整理后通过自己的接口提供相应的统计数据

  • 通过 Docker 启动
docker run --name exporter -d -p 9107:9107 prom/consul-exporter --consul.server=host.docker.internal:8500
  • 检查数据
curl localhost:9107/metrics

会返回相应的监控数据,这样就可以将 Consul中未提供的数据添加到 Prometheus中了

自定义监控数据

如果数据仍然不满足,可以基于consul_exporter 这个项目进行扩展,添加自定义的统计数据;如现在需要统计集群的响应时间,可以通过统计请求consul的耗时来实现:

  1. 添加自定义的统计项

在常量中添加一个新的统计项

    responseTime = prometheus.NewDesc(prometheus.BuildFQName(namespace, "", "response_time"),"Time spend for a request ",[]string{"node", "server_ip"}, nil,)
  1. 实现统计方法
func (e *Exporter) collectResponseTime(ch chan<- prometheus.Metric) bool {start := time.Now().Nanosecond()serverIp, err := e.client.Status().Leader()if err != nil {_ = level.Error(e.logger).Log("msg", "Failed to query leader data", "err", err)return false}costTime := time.Now().Nanosecond() - startch <- prometheus.MustNewConstMetric(responseTime, prometheus.GaugeValue, float64(costTime), "leader", serverIp)return true
}
  1. 将统计项添加到 CollectDescribe
func (e *Exporter) Describe(ch chan<- *prometheus.Desc) {ch <- responseTime
}func (e *Exporter) Collect(ch chan<- prometheus.Metric) {ok = e.collectResponseTime(ch) && ok
}

这样,就会在启动后获取相应的数据,之后在 Prometheus 和 Grafana 中可以看到相应的数据

自定义 Dashboard

自定义的 Dashboard 是通过展示 PromQL 查询的结果来实现的

如在应用中有错误请求的统计,是通过累加错误的请求次数实现的,如统计值 consul_response_time

  • 原始数据:
# HELP consul_response_time Time spend for a request
# TYPE consul_response_time gauge
consul_response_time{node="leader",server_ip="172.19.0.2:8300"} 2.238e+06
  • 现在要统计所有的错误请求次数,可以在 Prometheus 的查询面板中查询:
consul_response_time

grafana-custom-dashboard-cosnul-reponse-time-prometheus.png

这样,就可以得到相应的错误数据,接下来只需要在Grafana中展示就可以

  • 添加看板

添加一个 Dashboard,并添加一个 Panel,在 Panel 的 Metrics 中添加刚才的查询语句

grafana-custom-dashboard-cosnul-reponse-time-grafana.png

执行查询后,会看到有图表生成,变量的名称通过 Legend 字段指定,如这里是 {instance="host.docker.internal:9107", job="consul-exporter", node="leader", server_ip="172.19.0.2:8300"},需要显示IP,即 server_ip 的值,可以设置 Legend 为 {{server_ip}},这样会显示正确的名称

其他的显示单位,显示效果等以及面板的名称可以通过旁边的设置选项进行配置

监控服务信息

可以根据 Consul 和 consul_exporter 对服务状态进行监控,只需要根据不同的数据进行聚合配置就可以实现

  • 节点信息
sum(consul_health_node_status)
  • 健康节点信息
sum(consul_health_node_status{status="passing"})
  • 不健康节点信息
sum(consul_health_node_status{status!="passing"})
  • 服务信息
count(sum(consul_health_service_status) by (service_name))
  • 实例数量
sum(consul_health_service_status)
  • 健康实例数量
sum(consul_health_service_status{status="passing"})
  • 不健康实例数量
sum(consul_health_service_status{status!="passing"})
  • 响应延时
consul_response_time/1000000
  • 服务状态
sum(consul_health_service_status{status!="passing"}) by (service_name)sum(consul_health_service_status) by (service_name)
  • 服务注册信息
sum(consul_health_service_status)sum(consul_health_service_status{status="passing"})sum(consul_health_service_status{status!="passing"})
  • 节点信息
sum(consul_health_node_status)sum(consul_health_node_status{status="passing"})sum(consul_health_node_status{status!~"passing"})

最终效果

grafana-custom-dashboard-cosnul-panel.png

  • 面板的 JSON文件

根据 Dashboard 的JSON配置文件 导入即可快速使用这个 Dashboard

这篇关于使用自定义 Grafana 面板监控 Consul的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138619

相关文章

springboot security快速使用示例详解

《springbootsecurity快速使用示例详解》:本文主要介绍springbootsecurity快速使用示例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝... 目录创www.chinasem.cn建spring boot项目生成脚手架配置依赖接口示例代码项目结构启用s

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

Spring Boot3虚拟线程的使用步骤详解

《SpringBoot3虚拟线程的使用步骤详解》虚拟线程是Java19中引入的一个新特性,旨在通过简化线程管理来提升应用程序的并发性能,:本文主要介绍SpringBoot3虚拟线程的使用步骤,... 目录问题根源分析解决方案验证验证实验实验1:未启用keep-alive实验2:启用keep-alive扩展建

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

GORM中Model和Table的区别及使用

《GORM中Model和Table的区别及使用》Model和Table是两种与数据库表交互的核心方法,但它们的用途和行为存在著差异,本文主要介绍了GORM中Model和Table的区别及使用,具有一... 目录1. Model 的作用与特点1.1 核心用途1.2 行为特点1.3 示例China编程代码2. Tab

SpringBoot使用OkHttp完成高效网络请求详解

《SpringBoot使用OkHttp完成高效网络请求详解》OkHttp是一个高效的HTTP客户端,支持同步和异步请求,且具备自动处理cookie、缓存和连接池等高级功能,下面我们来看看SpringB... 目录一、OkHttp 简介二、在 Spring Boot 中集成 OkHttp三、封装 OkHttp

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

如何自定义Nginx JSON日志格式配置

《如何自定义NginxJSON日志格式配置》Nginx作为最流行的Web服务器之一,其灵活的日志配置能力允许我们根据需求定制日志格式,本文将详细介绍如何配置Nginx以JSON格式记录访问日志,这种... 目录前言为什么选择jsON格式日志?配置步骤详解1. 安装Nginx服务2. 自定义JSON日志格式各

使用Python实现网络设备配置备份与恢复

《使用Python实现网络设备配置备份与恢复》网络设备配置备份与恢复在网络安全管理中起着至关重要的作用,本文为大家介绍了如何通过Python实现网络设备配置备份与恢复,需要的可以参考下... 目录一、网络设备配置备份与恢复的概念与重要性二、网络设备配置备份与恢复的分类三、python网络设备配置备份与恢复实