阿里云运维第一步(监控):开箱即用的监控

2024-06-13 19:52

本文主要是介绍阿里云运维第一步(监控):开箱即用的监控,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:仲阳

这是云的时代,现在云计算已经在各行各业广泛的应用。但是上云对于大多数客户来说,依然有很大的学习成本,如下图仅是阿里云都有几百款产品,怎么选择?怎么用?对于客户来说都是问题。“用好云、管好云”不仅仅是口号,还是我们的目标。

图片

来自于:https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B《阿里云产品手册 2024 版》

“兵马未动、粮草先行”, 今天我们就针对阿里云的上云新用户,如何开启自己的可观测历程,做一个简单的介绍。

认识可观测的分层

图片

在可观测的领域里面,技术栈主要分为 metric、trace、log 三个方向,从业务分成上我们的观点主要分为体验、业务、应用和资源。这个金字塔越上面的越贴近用户的真实体感,比如用户用了 100 台服务器,其中一台服务器宕机,不一定能影响用户,但如果是从网络监控上发现问题,大概率用户已经受影响。反过来讲,金字塔越下面,发现的问题越具体、越能快速解决,还是上面这个例子,ECS 有问题可以重启、扩容等处理方式,但用户体验服务不可用的原因就有很多,需要更多时间去确定问题。

言归正传,今天我们希望跟一些刚刚涉猎阿里云的客户可以快速构建一套完整的云资源监控解决方案。在此基础上随着云应用的深入,有更多可观测解决方案等着你。

阿里云云监控的初体验

阿里云云监控旨在解决可观测领域的各种问题。基石就是下面这三个技术栈,在这个基础上又分为 Dashboard、Alert、API 等多用应用方式。云监控云服务监控主要针对的是 Metrics on Cloud Resource 这个场景。

图片

首先我们要先进入云监控产品页,可以看到有五大功能模块——云资源监控、网络分析与监控、可视化 Dashboard、告警服务、事件中心。其中云资源监控是我们今天重点分享的一个功能模块,这个模式是开箱即用的功能,只要用户在阿里云上购买了资源产品,就可以在这里看到相关的监控指标大盘。

图片

既然要“用好云”,自然是要按照“看得见”、“听得见”。需要时可以通过可视化组件看到云资源的状态,忙时系统还会自动的监控资源,通过报警系统通知出来。

图片

在云监控上如何“看得见”

无用质疑,ECS 是阿里云计算的根基,也是云监控首要支持的一个款产品。在云监控的菜单体系里面也是最显眼的地方,如上图。用户购买 ECS,自然可以在“主机监控”这个菜单看得到。主机监控的视图将围绕 CPU、内存、负载、网络、磁盘,同时也提供了 Top 5 进程监控。

图片

图片

云监控不仅仅有 ECS 的监控,有超过 100 款云产品的监控数据都在云监控产品,可以说在云监控可以看到阿里云资源的任意监控。

图片

高阶玩家还有两个选择:

1)自定义 Dashboard,可以用自己的视角管理云资源监控。

2)通过 API 将监控指标数据拉走,通过自建的监控系统做集成。

这篇文章主要聚焦在监控运维的第一步,高阶玩法暂时不展开。

如何在云监控系统中“听得见”

做过运维的人都应该清楚一个事情,可观测是手段不是目的。客户最重要的目的是让自己的应用(服务)长期保持高可用。为了这个目标,可观测是第一步,首先要看得见系统的状态,然后就是在这个状态不正常进行合理的运维,比如扩容、重启、迁移、限流等等。

同样,高阶玩家有很多措施可以完成这个目标(“应用(服务)长期保持高可用”),但在这篇文章中,我们更想给初入此道的同学以简单易用,类似于 helloworld 这个层次的介绍。有了第一步,进阶还远么?

如何听得见?

电话、短信、邮件?不够

钉钉、企业微信、飞书?好像有点意思了

自动弹性伸缩(ESS),Serviceless 函数调度(FC),消息队列驱动运维(MSN)?还可以这样?

终极杀器——Webhook:Pagerduty、Slack、Teams。

如果上面这些措施,客户还听不见?没事,你提出来,谁知道未来是怎样的。

其中这里面暗含另一个问题:我们需要听见什么声音?报警阈值的规则,高阶玩家可以选择智能阈值、组合报警、表达式报警等重量级别的功能。那初阶玩家应该做什么?两个事情:一键报警和治理检测。

一键报警,云监控已经将最重要的指标,以及指标的合理阈值都总结出来,对于初阶用户来说不用太多思考,先将报警规则设置好,当云资源出现问题时就可以及时响应。

图片

治理检测,如果你不清楚你在云监控的用法是否合理,不用费脑子,一键诊断,按照提示下一步即可。一下子可以达到“水准之上”的水平。

图片

写在后面

云资源监控是可观测领域里面一个子集,监控是运维的驱动力。可观测的建设是长期的,包括体验层面的 RUM(前端监控)、synthetic(拨测)、PTS(压测),应用监控(APM),日志等多方位全面的覆盖。大家需要根据自己的业务重要程度来做相应的解决方案。

今天只是初步的介绍了最入门的几个云监控开箱即用的能力,最小依赖的可以在阿里云得到基本的监控报警保证。后面还有有一系列的文章介绍云监控的概念和能力。

参考资料:

[1] “CITE 2015”亮点解读《2015 政府工作报告》

https://www.cac.gov.cn/2015-04/09/c_1114917386.htm

[2] 阿里云产品手册 2024 版

https://developer.aliyun.com/ebook/8326?spm=a2c6h.26392470.ebook-read.3.1c186341TEtt9B

[3] 阿里云云监控帮助文档

https://help.aliyun.com/zh/cms/

[4] 云监控指标

https://help.aliyun.com/zh/cms/support/appendix-1-metrics?spm=a2c4g.11174283.0.0.2f30182fLPRKyv

[5] AWS cloudwatch

https://aws.amazon.com/cn/cloudwatch/

[6] 钉钉

https://oa.dingtalk.com/

[7] 企业微信

https://work.weixin.qq.com

[8] 飞书

https://www.feishu.cn/

[9] pagerduty

https://www.pagerduty.com

[10] slack

https://slack.com/intl/zh-cn/

[11] teams

https://www.microsoft.com/zh-cn/microsoft-teams/group-chat-software

这篇关于阿里云运维第一步(监控):开箱即用的监控的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1058267

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

kubernetes集群部署Zabbix监控平台

一、zabbix介绍 1.zabbix简介 Zabbix是一个基于Web界面的分布式系统监控的企业级开源软件。可以监视各种系统与设备的参数,保障服务器及设备的安全运营。 2.zabbix特点 (1)安装与配置简单。 (2)可视化web管理界面。 (3)免费开源。 (4)支持中文。 (5)自动发现。 (6)分布式监控。 (7)实时绘图。 3.zabbix的主要功能

基于树梅派的视频监控机器人Verybot

最近这段时间做了一个基于树梅派 ( raspberry pi ) 的视频监控机器人平台 Verybot ,现在打算把这个机器人的一些图片、视频、设计思路进行公开,并且希望跟大家一起研究相关的各种问题,下面是两张机器人的照片:         图片1:                   图片2                    这个平台的基本组成是:

PC与android平板通过浏览器监控Verybot的视频

下面这个视频是PC与android平板通过浏览器监控Verybot的视频:           http://v.youku.com/v_show/id_XNjYzNzYyMTIw.html

阿里云服务器ces

允许公网通过 HTTP、HTTPS 等服务访问实例 https://help.aliyun.com/document_detail/25475.html?spm=5176.2020520101.0.0.3ca96b0b3KGTPq#allowHttp

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

java后端服务监控与告警:Prometheus与Grafana集成

Java后端服务监控与告警:Prometheus与Grafana集成 大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿! 在现代的微服务架构中,监控和告警是确保服务稳定性的关键组成部分。Prometheus和Grafana是两个强大的工具,它们可以集成在一起,为Java后端服务提供实时监控和可视化告警。 服务监控的重要性 服务监控可以帮助我们实时了解服务的健

超越IP-Adapter!阿里提出UniPortrait,可通过文本定制生成高保真的单人或多人图像。

阿里提出UniPortrait,能根据用户提供的文本描述,快速生成既忠实于原图又能灵活调整的个性化人像,用户甚至可以通过简单的句子来描述多个不同的人物,而不需要一一指定每个人的位置。这种设计大大简化了用户的操作,提升了个性化生成的效率和效果。 UniPortrait以统一的方式定制单 ID 和多 ID 图像,提供高保真身份保存、广泛的面部可编辑性、自由格式的文本描述,并且无需预先确定的布局。