社区AIOps Live Benchmark工作启动,欢迎加入!

2024-03-22 12:52

本文主要是介绍社区AIOps Live Benchmark工作启动,欢迎加入!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

CCF OpenAIOps社区(https://open.aiops.cn)在线评测基准(AIOps Live Benchmark)工作已经在春节后正式启动。特别感谢来自清华大学、中国科学院计算机网络信息中心、南开大学、必示科技、乐维、蓝鲸、云杉网络、听云、纵目科技、阿里云、蚂蚁金服等单位的专家们提供的设备资源和技术支持。目前乐维、蓝鲸、DeepFlow、ChaosMeta等工具在社区各参与单位的帮助下,已完成系统上线。

首批在线评测基准工作组成员由来自发起单位及各高校、企业的社区报名志愿参与的专家团队组成,目前已组建可观测性、数据、混沌工程等各小组,工作陆续启动、井然有序、稳步推进。后续我们会持续同步工作组的工作进展,以及面向全社区组织交流和经验分享。

AIOps Live Benchmark工作介绍

在线评测基准(AIOps Live Benchmark)是在真实的IT系统上,通过混沌工程工具模拟真实的运维场景,通过可观测工具获取实时数据,在线评测AIOps应用,最终提供权威的评测基准和真实数据。下面Benchmark中一些常见组件举例:

IT系统:TrainTicket 、Online Boutique、DeathStartBench等
混沌工程工具:ChaosMeta、ChaosBlade等
可观测工具:Promethues、Skywalking、Zabbix等
AIOps应用:异常检测、告警分析、根因定位等应用等

图片.png

在线评测基准系统将是在AIOps领域中的一个重要创新,其价值主要体现在以下几个方面:

真实的IT运维场景
在真实的IT系统上,利用流量模拟和混沌工程工具,模拟多种运维场景,测试AIOps解决方案有效性和鲁棒性。

前沿的可观测性技术
集成了听云、乐维、蓝鲸、DeepFlow、SkyWalking等前沿的可观测技术工具,实现丰富的指标、日志、Trace数据收集。

标准化评估指标
为AIOps应用提供一套标准化的评估指标和排行榜。促进技术的发展和创新,同时也为用户选择合适的工具提供了参考。

权威AIOps数据集
为运维应用开发人员和科研人员提供真实的运维数据和场景,用于学术研究、产品测试和评测打榜。

目标和收益

建设目标

构建真实的运维平台
建设并评测现有异常检测、告警分析、故障定位等AIOps应用的实际效果
发布运维应用的权威数据集和评测基准

预期收益

运维人员能够快速了解一些常见的运维问题、运维工具和对应AIOps解决方案
运维专家能够发布自己关注的运维难题,利用社区力量去解决
科研人员和运维应用开发人员可以获取真实运维数据,用于学术研究、产品测试、评测打榜

系统概要

图片.png

目前在线评测基准的业务架构,主要分为四层:

1、基础设施层:目前IT系统部署在中科院的中国科技云上,基础设施包括虚拟机、Kubernetes、Ceph磁盘集群等,支撑IT系统部署。

2、IT系统层:

当前被运维的IT系统为Online Boutique等开源的微服务系统;
后续如果有新的运维场景,可以部署其他类型IT系统。

3、平台工具层:

混沌工程工具:模拟真实运维问题,通过模拟服务流量并对IT系统注入真实的故障,驱动整个在线评测基准工作;
可观测工具:采集IT服务的指标、拓扑、日志等运维数据,同时配置监控产生告警,供AIOps应用和数据平台使用;
数据和计算平台:统一收集、存储告警、指标、日志等运维数据,供AIOps应用分析。此外提供Flink或者Spark计算集群,支撑AIOps应用的运行。

4、AIOps应用层:根据发布的评测基准,建设对应的AIOps应用,目前可以分为四部分:

异常检测:主要为故障发现的应用,包括业务指标异常检测、机器指标异常检测、调用链异常检测、日志异常检测等场景;
告警分析:包括智能告警收敛、告警风暴分析定界等场景;
故障处理:包括微服务故障分类、根因分析、处置推荐等场景;
成本效率:包括智能客户(基于大模型)、智能变更检测、容量预测等场景。
近期任务

近期计划完成微服务的异常检测根因分析的评测基准的制定,同时构建在线评测平台。欢迎各位专家参与贡献,具体包括但不限于以下这些任务:
1、搭建并维护微服务Google Online Boutique

任务说明:在中国科技云上搭建5台机器规模的微服务,并且持续维护,保证系统的可用性,用于后续监测和分析。
2、搭建并维护乐维监控工具

任务说明:在云上安装和配置乐维工具,以确保其在环境中顺利运行。预期该工具能够做指标、拓扑等数据采集,同时提供监控告警,支持后续业务指标、机器指标、告警分析等AIOps应用。
3、搭建并维护APM工具

任务说明:部署听云等APM工具并完成配置,以实现应用性能管理(APM)功能。该工具提供业务性能追踪,配置智能监控告警,采集拓扑、指标等运维数据,将相关的运维数据做对应的输出,支持后续异常检测、故障定位等AIOps应用。
4、搭建并维护蓝鲸可观测工具

任务说明:部署蓝鲸工具并完成配置。该工具提供业务性能追踪,配置智能监控告警,采集拓扑、指标等运维数据,将相关的运维数据做对应的输出,支持后续异常检测、故障定位等AIOps应用。
5、搭建并维护DeepFlow搭建

任务说明:部署DeepFlow并完成配置,实现基于eBPF的全套产品功能,能够输出相关的数据,支持后续异常检测、故障定位等AIOps应用。
6、搭建并维护Skywalking工具

任务说明:部署并配置SkyWalking,一个观测性分析平台和应用性能管理系统。通过这项任务,预期能够实现对应用程序的性能监控、追踪分析以及依赖关系的探索,支持后续调用链检测、故障定位等AIOps应用。
7、搭建并维护ChaosMeta

任务说明:部署ChaosMeta工具,以支持混沌工程流量模拟、故障注入等功能。故障具体涉及微服务POD、Node、Service中常见的CPU、内存、磁盘、网络等异常,尽可能模拟真实的各种故障情况。
8、搭建并维护ChaosBlade

任务说明:部署ChaosMeta工具,以支持混沌工程流量模拟、故障注入等功能。故障具体涉及微服务POD、Node、Service中常见的CPU、内存、磁盘、网络等异常,尽可能模拟真实的各种故障情况。
9、数据和计算平台搭建

任务说明:设计并部署运维数据平台。在数据存储方面,涉及指标、日志、告警、拓扑的存储方案,供AIOps应用评测使用,同时定期发布相应的评测数据集;在计算方面,按AIOps应用需求部署Flink 或者Spark计算集群。
10、制定微服务异常检测评测基准

任务说明: 根据真实的运维需求,设计异常检测的评测基准。具体可以先以业务指标、机器指标异常检测的评测基准为基础,参考历届AIOps挑战赛方案,给出具体的标注规则和评分机制。最终确保评测基准能够在现有搭建的平台上进行测试评估。
11、制定微服务根因定位评测基准

任务说明: 根据真实的运维需求,设计根因定位的评测基准。可参考历届AIOps挑战赛方案,并给出具体的标注规则和评分机制。最终确保评测基准能够在现有搭建的平台上进行测试评估。

参考资料

历届挑战赛AIOps应用场景
http://aiops-challenge.com

在这里插入图片描述

欢迎感兴趣的社区成员加入在线评测工作组中,可扫码填写问卷并具体描述希望参与的工作内容和相关经验,感谢对社区工作的支持!

在这里插入图片描述

这篇关于社区AIOps Live Benchmark工作启动,欢迎加入!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/835325

相关文章

MySQL数据库宕机,启动不起来,教你一招搞定!

作者介绍:老苏,10余年DBA工作运维经验,擅长Oracle、MySQL、PG、Mongodb数据库运维(如安装迁移,性能优化、故障应急处理等)公众号:老苏畅谈运维欢迎关注本人公众号,更多精彩与您分享。 MySQL数据库宕机,数据页损坏问题,启动不起来,该如何排查和解决,本文将为你说明具体的排查过程。 查看MySQL error日志 查看 MySQL error日志,排查哪个表(表空间

springboot3打包成war包,用tomcat8启动

1、在pom中,将打包类型改为war <packaging>war</packaging> 2、pom中排除SpringBoot内置的Tomcat容器并添加Tomcat依赖,用于编译和测试,         *依赖时一定设置 scope 为 provided (相当于 tomcat 依赖只在本地运行和测试的时候有效,         打包的时候会排除这个依赖)<scope>provided

内核启动时减少log的方式

内核引导选项 内核引导选项大体上可以分为两类:一类与设备无关、另一类与设备有关。与设备有关的引导选项多如牛毛,需要你自己阅读内核中的相应驱动程序源码以获取其能够接受的引导选项。比如,如果你想知道可以向 AHA1542 SCSI 驱动程序传递哪些引导选项,那么就查看 drivers/scsi/aha1542.c 文件,一般在前面 100 行注释里就可以找到所接受的引导选项说明。大多数选项是通过"_

uva 10916 Factstone Benchmark(打表)

题意是求 k ! <= 2 ^ n ,的最小k。 由于n比较大,大到 2 ^ 20 次方,所以 2 ^ 2 ^ 20比较难算,所以做一些基础的数学变换。 对不等式两边同时取log2,得: log2(k ! ) <=  log2(2 ^ n)= n,即:log2(1) + log2(2) + log2 (3) + log2(4) + ... + log2(k) <= n ,其中 n 为 2 ^

用命令行的方式启动.netcore webapi

用命令行的方式启动.netcore web项目 进入指定的项目文件夹,比如我发布后的代码放在下面文件夹中 在此地址栏中输入“cmd”,打开命令提示符,进入到发布代码目录 命令行启动.netcore项目的命令为:  dotnet 项目启动文件.dll --urls="http://*:对外端口" --ip="本机ip" --port=项目内部端口 例: dotnet Imagine.M

Linux服务器Java启动脚本

Linux服务器Java启动脚本 1、初版2、优化版本3、常用脚本仓库 本文章介绍了如何在Linux服务器上执行Java并启动jar包, 通常我们会使用nohup直接启动,但是还是需要手动停止然后再次启动, 那如何更优雅的在服务器上启动jar包呢,让我们一起探讨一下吧。 1、初版 第一个版本是常用的做法,直接使用nohup后台启动jar包, 并将日志输出到当前文件夹n

衡石分析平台使用手册-单机安装及启动

单机安装及启动​ 本文讲述如何在单机环境下进行 HENGSHI SENSE 安装的操作过程。 在安装前请确认网络环境,如果是隔离环境,无法连接互联网时,请先按照 离线环境安装依赖的指导进行依赖包的安装,然后按照本文的指导继续操作。如果网络环境可以连接互联网,请直接按照本文的指导进行安装。 准备工作​ 请参考安装环境文档准备安装环境。 配置用户与安装目录。 在操作前请检查您是否有 sud

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

SpringBoot项目是如何启动

启动步骤 概念 运行main方法,初始化SpringApplication 从spring.factories读取listener ApplicationContentInitializer运行run方法读取环境变量,配置信息创建SpringApplication上下文预初始化上下文,将启动类作为配置类进行读取调用 refresh 加载 IOC容器,加载所有的自动配置类,创建容器在这个过程

嵌入式Openharmony系统构建与启动详解

大家好,今天主要给大家分享一下,如何构建Openharmony子系统以及系统的启动过程分解。 第一:OpenHarmony系统构建      首先熟悉一下,构建系统是一种自动化处理工具的集合,通过将源代码文件进行一系列处理,最终生成和用户可以使用的目标文件。这里的目标文件包括静态链接库文件、动态链接库文件、可执行文件、脚本文件、配置文件等。      我们在编写hellowor