Prometheus告警Alertmanager部署

2024-06-19 13:52

本文主要是介绍Prometheus告警Alertmanager部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Prometheus告警Alertmanager部署

资源监控一般离不开预警,因为我们不可能每时每刻都盯着某个资源监控看,而且在实际的工作中当中我们搭建的解决方案涉及到的服务器是多台甚至数十台,所以更加不现实,因此资源告警是一个必不可少的一个模块。

Alertmanager告警原理

首先我们了解下alertmanager的基本的报警原理
Prometheus Server(监控规则-告警)–push->AlertManager(Router-Receiver)–notify->Email/企业微信…
通过Prometheus Server中配置的监控规则采集数据,当采集的数据经过一定的计算符合配置的告警规则时,就将把告警对应的内容信息推送给alertmanager模块,alertmanager模块根据配置规则将报警推送给邮件或者企业微信内容,具体可以参考官方文档:https://prometheus.io/docs/alerting/latest/configuration/

Alertmanager告警部署

alertmanager主要进行报警
1.首先我们进入Prometheus的官方网站的下载页面:https://prometheus.io/download/获取对应的版本。我们会看到如下界面。
在这里插入图片描述
然后这里我们选择altermanager-0.21.0.linux-amd64.tar.gz的版本进行点击进入下载,我们可以获取相应的安装包。
2.将下载下来的文件包通过xshell上传到跟我们prometheus同一台服务器上(也可以不同服务器),把程序包放到一个目录下面:

[root@localhost Stability]# pwd
/ftp/Stability
[root@localhost Stability]# ls |grep al
alertmanager-0.21.0.linux-amd64.tar.gz

3.通过以下命令对altermanager进行安装。

首先进行解压:
[root@localhost Stability]# tar -zxvf alertmanager-0.21.0.linux-amd64.tar.gz 
alertmanager-0.21.0.linux-amd64/
alertmanager-0.21.0.linux-amd64/alertmanager
alertmanager-0.21.0.linux-amd64/amtool
alertmanager-0.21.0.linux-amd64/NOTICE
alertmanager-0.21.0.linux-amd64/LICENSE
alertmanager-0.21.0.linux-amd64/alertmanager.yml
解压完成以后对文件进行重命名:
[root@localhost Stability]# mv alertmanager-0.21.0.linux-amd64 alertmanager

因为很多公司服务器所在的环境都属于公司内网中,服务器无法获取外网地址。如果在有外网的情况下是可以简化步骤1、步骤2中的步骤。只需要在在步骤1中获取下载的地址,然后进入CentOS操作系统下,使用如下命令即可获取安装包。

wget https://github.com/prometheus/alertmanager/releases/download/v0.21.0/alertmanager-0.21.0.linux-amd64.tar.gz

4.设置node_export后台启动,命令如下。

# 首先我们需要确定操作系统版本,CentOS7及以上可以成服务的模式
root@localhost:/usr/local/monitor/node_exporter# cat /etc/redhat-release 
CentOS release 6.9 (Final)
# 然后我们需要在prometheus.yml文件中添加如下信息
[root@localhost prometheus]# vi prometheus.yml
# Alertmanager configuration
alerting:alertmanagers:- static_configs:- targets: ['10.31.128.110:7093']
rule_files:- /ftp/Stability/prometheus/rules/*.rules
# 接下来我们就要在对应的规则文件路径下进行规则配置,假设我们配置一个服务器Down的报警,操作如下
[root@localhost rules]# pwd
/ftp/Stability/prometheus/rules
[root@localhost rules]# vi service_down.rules
groups:
- name: ServiceStatus #规则组名称   rules:- alert: ServiceStatusAlert  #单个规则的名称expr: up == 0   #匹配规则, up==0for: 10s        #持续时间labels:         #标签project: ServiceDownAlert    #自定义lablesannotations:            #告警正文summary: "Instance {{ $labels.instance }} down"description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."
# 然后我们再配置alertmanager的告警规则
[root@localhost alertmanager]# vi alertmanager.yml
我们可以看到原先的配置文件如下:
global:resolve_timeout: 5mroute:group_by: ['alertname']group_wait: 10sgroup_interval: 10srepeat_interval: 1hreceiver: 'web.hook'
receivers:
- name: 'web.hook'webhook_configs:- url: 'http://127.0.0.1:5001/'
inhibit_rules:- source_match:severity: 'critical'target_match:severity: 'warning'
equal: ['alertname', 'dev', 'instance']
然后我们进行改造成如下配置信息
#全局配置,比如配置发件人
global:resolve_timeout: 5m    #处理超时时间,默认为5minsmtp_smarthost: 'mail.XXXXX.com:25'  # 邮箱smtp服务器代理smtp_from: 'XXXX@XXXX.com' # 发送邮箱名称smtp_auth_username: 'XXXX@XXXX.com' # 邮箱名称smtp_auth_password: 'XXXXXXX'              # 邮箱密码或授权码smtp_require_tls: false# 定义路由树信息,这个路由可以接收到所有的告警,还可以继续配置路由,比如project: zhidaoAPP(prometheus 告警规则中自定义的lable)发给谁,project: baoxian的发给谁
route:group_by: ['alertname'] # 报警分组依据group_wait: 10s         # 最初即第一次等待多久时间发送一组警报的通知group_interval: 10s     # 在发送新警报前的等待时间repeat_interval: 10s      # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝receiver: 'email'       # 发送警报的接收者的名称,以下receivers name的名称# 定义警报接收者信息
receivers:- name: 'email'  # 路由中对应的receiver名称email_configs: # 邮箱配置- to: 'XX@XXX.com'   # 接收警报的email配置#html: '{{ template "test.html" . }}'  # 设定邮箱的内容模板注意:我们改过prometheus.yml文件,所以需要重载

5.设置alertmanager后台启动,命令如下。

# 进入后台启动服务目录
[root@localhost Stability]# cd /usr/lib/systemd/system
# 拷贝一份现有的service服务脚本
[root@localhost system]# cp prometheus.service alertmanager.service
# 使用vim命令对文件记性编辑
[root@localhost system]# vim alertmanager.service
# 修改成以下内容后进行保存退出
[Unit]
Description=AlertManager
Documentation=https://prometheus.io/
After=network.target[Service]
ExecStart=/ftp/Stability/alertmanager/alertmanager --config.file=/ftp/Stability/alertmanager/alertmanager.yml --storage.path=/ftp/Stability/alertmanager/data
Restart=on-failure[Install]
WantedBy=multi-user.target 
# 保存退出后我们进行重新加载配置
[root@localhost system]# systemctl daemon-reload
# 然后启动alertmanager服务
[root@localhost system]# systemctl start alertmanager
# 查看进程是否在线
[root@localhost alertmanager]# systemctl status alertmanager
● alertmanager.service - AlertManagerLoaded: loaded (/usr/lib/systemd/system/alertmanager.service; disabled; vendor preset: disabled)Active: active (running) since Wed 2021-03-24 10:31:49 CST; 1s ago

6.启动完成以后,我们就可以用如下地址进行访问9093地址
在这里插入图片描述
这样我们一个报警就已经设置好了。

Alertmanager告警触发实例

因为我们目前的测试环境网段是无法进行邮件发送的,主要是跟网络隔离,所以这里使用windows环境的Alertmanager相关报进行邮件模拟发送。主要在prometheus上面简历了两个告警规则。

[root@localhost rules]# ls
cpu_high.rules  service_down.rules
规则1:当服务器10.31.131.20的CPU使用率超过0即报警
[root@localhost rules]# cat cpu_high.rules 
groups:
- name: ServiceStatus #规则组名称   rules:- alert: ServiceStatusAlert  #单个规则的名称expr:  sum(count(node_cpu_seconds_total{instance="10.31.131.20:7100", mode='system'}) by (cpu,instance)) by(instance) > 0  #匹配规则for: 10s        #持续时间labels:         #标签project: ServiceDownAlert    #自定义lablesannotations:            #告警正文summary: "Instance {{ $labels.instance }} cpu higer"description: "{{ $labels.instance }} of job {{ $labels.job }} cpu is very higer."
规则2:当相应的服务在线,即报警
[root@localhost rules]# cat service_down.rules 
groups:
- name: ServiceStatus #规则组名称   rules:- alert: ServiceStatusAlert  #单个规则的名称expr: up == 1   #匹配规则, up==0for: 10s        #持续时间labels:         #标签project: ServiceDownAlert    #自定义lablesannotations:            #告警正文summary: "Instance {{ $labels.instance }} down"description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minutes."

当触发报警以后,我们可以登录http://10.31.128.110:9090/classic/alerts的界面看到告警产生:
在这里插入图片描述
Inactive:告警仅仅生效,未发生任何事宜。
Pending:已触发阈值,但为满足告警持续时间
Firing:已触发阈值且满足告警持续时间。报警发送给接受者
接收的报警邮件如下:
在这里插入图片描述

这篇关于Prometheus告警Alertmanager部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1075207

相关文章

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

SpringBoot配置Ollama实现本地部署DeepSeek

《SpringBoot配置Ollama实现本地部署DeepSeek》本文主要介绍了在本地环境中使用Ollama配置DeepSeek模型,并在IntelliJIDEA中创建一个Sprin... 目录前言详细步骤一、本地配置DeepSeek二、SpringBoot项目调用本地DeepSeek前言随着人工智能技

通过Docker Compose部署MySQL的详细教程

《通过DockerCompose部署MySQL的详细教程》DockerCompose作为Docker官方的容器编排工具,为MySQL数据库部署带来了显著优势,下面小编就来为大家详细介绍一... 目录一、docker Compose 部署 mysql 的优势二、环境准备与基础配置2.1 项目目录结构2.2 基

CentOS 7部署主域名服务器 DNS的方法

《CentOS7部署主域名服务器DNS的方法》文章详细介绍了在CentOS7上部署主域名服务器DNS的步骤,包括安装BIND服务、配置DNS服务、添加域名区域、创建区域文件、配置反向解析、检查配置... 目录1. 安装 BIND 服务和工具2.  配置 BIND 服务3 . 添加你的域名区域配置4.创建区域

OpenManus本地部署实战亲测有效完全免费(最新推荐)

《OpenManus本地部署实战亲测有效完全免费(最新推荐)》文章介绍了如何在本地部署OpenManus大语言模型,包括环境搭建、LLM编程接口配置和测试步骤,本文给大家讲解的非常详细,感兴趣的朋友一... 目录1.概况2.环境搭建2.1安装miniconda或者anaconda2.2 LLM编程接口配置2

大数据spark3.5安装部署之local模式详解

《大数据spark3.5安装部署之local模式详解》本文介绍了如何在本地模式下安装和配置Spark,并展示了如何使用SparkShell进行基本的数据处理操作,同时,还介绍了如何通过Spark-su... 目录下载上传解压配置jdk解压配置环境变量启动查看交互操作命令行提交应用spark,一个数据处理框架

如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件

《如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件》本文介绍了如何使用Docker部署FTP服务器和Nginx,并通过HTTP访问FTP中的文件,通过将FTP数据目录挂载到N... 目录docker部署FTP和Nginx并通过HTTP访问FTP里的文件1. 部署 FTP 服务器 (

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

Ubuntu 22.04 服务器安装部署(nginx+postgresql)

《Ubuntu22.04服务器安装部署(nginx+postgresql)》Ubuntu22.04LTS是迄今为止最好的Ubuntu版本之一,很多linux的应用服务器都是选择的这个版本... 目录是什么让 Ubuntu 22.04 LTS 变得安全?更新了安全包linux 内核改进一、部署环境二、安装系统

golang获取prometheus数据(prometheus/client_golang包)

《golang获取prometheus数据(prometheus/client_golang包)》本文主要介绍了使用Go语言的prometheus/client_golang包来获取Prometheu... 目录1. 创建链接1.1 语法1.2 完整示例2. 简单查询2.1 语法2.2 完整示例3. 范围值