PLG(Promtail + Loki + Grafana)日志系统生产快速实践

2023-11-30 02:20

本文主要是介绍PLG(Promtail + Loki + Grafana)日志系统生产快速实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

随着公司业务发展,支撑公司业务的各种系统越来越多,为了保证公司的业务正常发展,急需要对这些线上系统的运行进行监控,做到问题的及时发现和处理,最大程度减少对业务的影响。因此有必要引入一套日志监控系统。

ELK (Elasticsearch 、 Logstash和Kibana) 是功能丰富,允许复杂的操作。但是,这些方案往往规模复杂,资源占用高,操作苦难,有点杀鸡用牛刀了。

PLG (Promtail + Loki + Grafana) 轻量级的,配置要求也不高(最后有个简单的实验),功能简单,但是目的明确,就是日志采集。

如果是简单进行日志查询,硬件资源不充裕那 PLG 绝对是好选择。

1.简介

Promtail: 日志收集的代理,安装部署在需要收集和分析日志的服务器,promtail会将日志发给Loki服务。

Loki: 主服务器,负责存储日志和处理查询。

Grafana:提供web管理界面,数据展示功能。

https://grafana.com/docs/

PLG 官方文档很丰富,大家可以在网络上找到丰富的资料,这里就不多讲解了。

2.PLG 安装

Loki: https://grafana.com/docs/loki/latest/installation/

Grafana:https://grafana.com/docs/grafana/latest/setup-grafana/installation/

Promtail:https://grafana.com/docs/loki/latest/clients/promtail/installation/

安装都很简单
这里使用源码安装:

loki 和 promtail 可以到这里下载 https://github.com/grafana/loki/releases/

Grafana 下载地址:https://grafana.com/grafana/download?platform=linux

2.1 loki 安装

下载:

wget https://github.com/grafana/loki/releases/download/v2.7.1/loki-linux-amd64.zip

下载配置:

wget https://raw.githubusercontent.com/grafana/loki/master/cmd/loki/loki-local-config.yaml

解压&启动:

unzip loki-linux-amd64.zip
./loki-linux-amd64 --config.file loki-local-config.yaml

2.2 promtail 安装

下载:

wget https://github.com/grafana/loki/releases/download/v2.2.1/promtail-linux-amd64.zip

下载配置:

wget https://raw.githubusercontent.com/grafana/loki/main/clients/cmd/promtail/promtail-local-config.yaml

解压&启动:

unzip promtail-linux-amd64.zip
./promtail-linux-amd64 --config.file promtail-local-config.yaml

2.3 Grafana 安装

下载:

wget https://dl.grafana.com/enterprise/release/grafana-enterprise-9.3.6.linux-amd64.tar.gz

解压&启动:

tar -zxvf grafana-enterprise-9.3.6.linux-amd64.tar.gz
./grafana-9.3.6/bin/grafana-server

经过上面的步骤后就算是安装成功了,接下来讲解下生产环境下我们是怎么使用的。

3.生产如何配置

3.1 loki 配置

下面是一般生产上使用的配置,更多详细配置可以参考https://grafana.com/docs/loki/latest/configuration/

auth_enabled: falseserver:http_listen_port: 3100  # http 端口grpc_listen_port: 9096common:path_prefix: /data/lokistorage:filesystem:  # loki 存储位置chunks_directory: /data/loki/chunksrules_directory: /data/loki/rulesreplication_factor: 1ring:instance_addr: 127.0.0.1kvstore:store: inmemoryquery_range:results_cache:cache:embedded_cache:enabled: truemax_size_mb: 100
compactor:working_directory: /data/loki/compactor      # 压缩目录,一般也作为持久化目录compaction_interval: 10m                 # 压缩间隔retention_enabled: true                  # 持久化开启retention_delete_delay: 2h               # 过期后多久删除retention_delete_worker_count: 150       # 过期删除协程数目
schema_config:configs:- from: 2020-10-24store: boltdb-shipperobject_store: filesystemschema: v11index:prefix: index_period: 24h  ruler:alertmanager_url: http://localhost:9093
limits_config:reject_old_samples: true   # 是否拒绝旧样本reject_old_samples_max_age: 168h   # 168小时之前的样本被拒绝chunk_store_config:max_look_back_period: 168h  # 为避免查询超过保留期的数据,必须小于或等于下方的时间值
table_manager:retention_deletes_enabled: true   # 保留删除开启retention_period: 168h  # 超过168h的块数据将被删除,必须为24h的倍数

3.2 promtail 配置

下面以一个简单的例子:

LOG [INFO][2023-02-06 17:29:50 +0800] [][reactor-http-epoll-6]  K-Trace-Id:[63e0c88ed5de1c4cc5ace63b],method:POST,url:http://10.0.0.102/api/report/open/buried,body:{"eventTypeId":49,"ip":"10.0.2.55","userId":"10006429","referrer":"http://localhost:8081/","equipment":"pc"} 
server:http_listen_port: 9080grpc_listen_port: 0positions:filename: /tmp/positions.yamlclients:- url: http://10.0.0.32:3100/loki/api/v1/push  # 推送到loki地址 
scrape_configs:
- job_name: logs  # 唯一static_configs:- targets:- localhost  # 读取本地文件labels: # labels 用户loki labels查询job: admin-service__path__: /data/logs/admin-service/*/*info.log  # 读取后缀为info.log的日志文件- targets:- localhost  labels: job: gateway-service__path__: /data/logs/gateway-service/*/*info.log pipeline_stages:- match:selector: '{job="admin-service"}' #  job为admin-service可以匹配到stages:- multiline:firstline: '^LOG'  # LOG开头进行多行合并- regex:expression: '.*(?P<level>INFO|WARN|ERROR).*' # 正则匹配解析 level - timestamp:format: RFC3339Nanosource: timestamp- labels:timestamp:level:  # 将level 作为以一个标签 ,label loki会建立索引,加快查询- match:selector: '{job="gateway-service"}'stages:- multiline:firstline: '^LOG'  - regex:expression: '.*(?P<level>INFO|WARN|ERROR).*'- timestamp:format: RFC3339Nanosource: timestamp- labels:timestamp:level: 

个人使用中觉得 match 下面的自定义 label ,在实际使用中很有用,可以非常方便的进行自定义查询,速度很快。

3.2 Grafana配置

Grafana 无需修改配置文件,而是直接在页面上配置。Grafana 默认端口为 3000

http://10.0.0.32:3000/
10.0.0.32 为你安装Grafana 机器地址
在这里插入图片描述
默认账号和密码 均为 admin。

1.登录后添加数据源。

在这里插入图片描述
选择loki
在这里插入图片描述

2.配置loki地址

在这里插入图片描述
点击 Save & test 完成loki配置
在这里插入图片描述

3.开始日志查询

在这里插入图片描述

4.常见查询场景
1.根据label 查询

​ 可以查到的label 都在promtail 配置中labels中配置。
在这里插入图片描述
​ 这个就表示查询 job 为 kakaclo-gateway-service 的日志。
在这里插入图片描述
这个表示 查询 level为 INFO 的日志。
在这里插入图片描述
也可以组合起来查询。
在这里插入图片描述

2.根据内容查询

一个很常见的场景就是想更具日志中某个内容进行查询,如根据 trace_id或某个特定的日志内容 进行查询。
在这里插入图片描述

日志查询可以支持很多条件, 具体可以参考https://grafana.com/docs/loki/latest/logql/

4.资源消耗测试

测试环境 16G 8核机器,日均日志量300M。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

运行两天,cpu 1.7% ,内存 消耗 16*0.8% = 0.128G = 131M 。

日志原始文件 420M ,loki 压缩后消耗 26M。

这么看资源消耗还是相当少的,日志压缩率 达到 6.2%。

5.Grafana Dashboards

生产环境中不是所有人都拥有 admin权限,但是又想查看对应的日志。这个时间就可以用到 Dashboard,生成Dashboard可以方便只读权限人员查看日志。下面推荐个loki很实用的Dashboard
https://grafana.com/grafana/dashboards/13639-logs-app/
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

导入后就可以loki数据源就可以用了
在这里插入图片描述
在这里插入图片描述

5.生产实践的一些建议

1. 日志最好有统一规范

日志统一后方便提取共同的标签 如

ACTLOG [INFO][2023-02-13 17:16:02 +0800] [63e9ffd2d5de0bbaf7e4d890][NettyServer-10.0.0.121:8002-3-thread-19] com.happotech.actmgr.motan.service.impl.ActMgrServiceImpl.getAccountInfoThird(ActMg

这个可以方便定位日志属于那个系统 ,日志等级,日志时间,日志内容,链路id。如果日志格式不统一,那定位不同系统的问题起来就会很蛋疼。

2. 最好拥有全路径 trace_id

有了全路径id后查找问题那就是顺藤摸瓜的事,效率相当高

这里具体可以参考:

https://blog.csdn.net/AndCo/article/details/126542050?spm=1001.2014.3001.5502

3. 日志可以输出到统一的目录中

输出到统一的目录中后,日志收集和管理会简单很多。

例如不同的机器可以挂载一个统一的nas盘,把日志都输出到nas盘中,读取日志就变得很简单。
更多文章可以关注 海鸥技术部落公众号

这篇关于PLG(Promtail + Loki + Grafana)日志系统生产快速实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/435253

相关文章

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

电脑桌面文件删除了怎么找回来?别急,快速恢复攻略在此

在日常使用电脑的过程中,我们经常会遇到这样的情况:一不小心,桌面上的某个重要文件被删除了。这时,大多数人可能会感到惊慌失措,不知所措。 其实,不必过于担心,因为有很多方法可以帮助我们找回被删除的桌面文件。下面,就让我们一起来了解一下这些恢复桌面文件的方法吧。 一、使用撤销操作 如果我们刚刚删除了桌面上的文件,并且还没有进行其他操作,那么可以尝试使用撤销操作来恢复文件。在键盘上同时按下“C

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

软考系统规划与管理师考试证书含金量高吗?

2024年软考系统规划与管理师考试报名时间节点: 报名时间:2024年上半年软考将于3月中旬陆续开始报名 考试时间:上半年5月25日到28日,下半年11月9日到12日 分数线:所有科目成绩均须达到45分以上(包括45分)方可通过考试 成绩查询:可在“中国计算机技术职业资格网”上查询软考成绩 出成绩时间:预计在11月左右 证书领取时间:一般在考试成绩公布后3~4个月,各地领取时间有所不同