prometheus-operator监控集群外的docker服务

2024-05-25 04:58

本文主要是介绍prometheus-operator监控集群外的docker服务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

这个主题网上可以搜到好多内容,如果直接照抄过来,还是不好用,应该是我没掌握原理。

10.10.14.2这个服务器并不在集群内,这个服务器上面跑的服务都是docker起的。prometheus-operator部署在集群内,想要通过prometheus-operator监控10.10.14.2这个服务器上的docker服务,以及该服务器本身的指标。

docker服务使用cadvisor来暴露指标,服务器本身的指标使用node-exporter来暴露。

首先在10.10.14.2这个服务器部署cadvisor和node-exporter

部署cadvisor

// 拉取cadvisor镜像
docker pull google/cadvisor:latest// 使用特权模式运行cadvisor,由于该服务器上的8080端口已经被占用,这里把cadvisor的8080端口映射到8000端口
docker run -d -p 8000:8080 --name cadvisor  --privileged=true -v /:/rootfs:ro -v /var/run:/var/run:rw -v /sys:/sys:ro -v /var/lib/docker/:/var/lib/docker:ro google/cadvisor:latest

部署node-exporter

// 拉取node-exporter镜像。我的prometheus-operator里面的node-exporter版本为0.18.1,这里也跟着部署相同的版本
docker pull quay.io/prometheus/node-exporter:v0.18.1// 运行node-exporter
docker run -d --name node-exporter -v /proc:/host/proc -v /sys:/host/sys -v /:/rootfs --net=host registry.local/cloudtogo/node-exporter:v0.18.1 --path.procfs /host/proc --path.sysfs /host/sys --collector.filesystem.ignored-mount-points="^/(sys|proc|dev|host|etc)($|/)"

prometheus-operator要监控集群外的服务需要定义对应的EndpointsServiceMonitor

我把这些docker服务和节点监控数据全部放入demo-system这个ns下。如果不设置默认是在default下。

编写docker容器的endpoints yaml,即docker-ep.yaml

kind: Endpoints
apiVersion: v1
metadata:name: demo-dockernamespace: demo-systemlabels:cloudos: demo-docker
subsets:- addresses:- ip: 10.10.14.2 # ip为安装cadvisor服务器的ipports:- name: metricsport: 8000 # cadvisor的8080端口映射到了8000端口

编写服务器endpoints yaml,即node-ep.yaml

kind: Endpoints
apiVersion: v1
metadata:name: demo-nodenamespace: demo-systemlabels:cloudos: demo-node
subsets:- addresses:- ip: 10.10.14.2 # ip为部署node-exporter的服务器ipports:- name: metricsport: 9100 # node-exporter暴露在该服务器的9100端口

编写service monitor yaml,即customer-serviceMonitor.yaml

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:name: demonamespace: demo-system
spec:endpoints:- interval: 15sport: metricsrelabelings:# 对instance进行relabel- action: replacesourceLabels: ['__address__']separator: ':'regex: '(.*):.*'targetLabel:  'instance'replacement:   '${1}'selector: {}

可以看到在10.10.14.2上的docker服务cadvisor和node-exporter ,都已经被收集到了

 

如果我有另外好几台服务器也部署了相同的cadvisor和node-exporter,按照上面的做法就是有几台服务器就需要几个endpoints,servicemonitor可以继续使用同一个。

endpoints.subsets.address其实是个数组,如果有多个,则直接加入。
如新增10.10.14.3部署了cadvisor服务,那么只需要在docker-ep.yaml中添加10.10.14.3这个ip即可。

完整docker-ep.yaml如下

kind: Endpoints
apiVersion: v1
metadata:name: demo-dockernamespace: demo-systemlabels:demo: demo-docker
subsets:- addresses:# 把使用docker部署的cadvisor即服务器ip加入这里- ip: 10.10.14.2- ip: 10.10.14.3ports:# 由于cadvisor暴露的端口相同,都是8000,这里无需做任何修改,可以适配所有情况- name: metricsport: 8000

 

 

如果只指定了Endpoints和ServiceMonitor,没有指定Service会存在一个问题,那就是一旦master关机后(reboot没有问题)再开机,创建的Endpoints对象就全部不见了。

这个现象也是无意之间发现的,当时还跟测试争论起来,因为大家都说没有删Endpoints,但是Endpoints就是不见了,后面才想起来master机器有被关机过,于是再关机验证一把问题就复现了。

在这里找到相关的信息参考:https://github.com/kubernetes/kubernetes/issues/12964

于是给Endpoints增加了对应的Service,即使后续关机,也没有任何影响了。
完整docker-service.yaml如下

apiVersion: v1
kind: Service
metadata:name: demo-dockernamespace: demo-systemlabels:demo: demo-docker
spec:type: ClusterIPclusterIP: Noneports:- name: cadvisorport: 8000protocol: TCP

 

这篇关于prometheus-operator监控集群外的docker服务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1000544

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。