AIOps探索 | 基于大模型构建高效的运维知识及智能问答平台(1)

2023-12-20 02:36

本文主要是介绍AIOps探索 | 基于大模型构建高效的运维知识及智能问答平台(1),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原作者:擎创科技产品专家 布博士

    提升运维效率对于任何组织都至关重要。在追求高效运维的过程中,一个关键步骤就是建立丰富的知识共享平台,它能够为团队成员提供一个共享经验、解决方案和最佳实践。通过知识共享,团队可以更快地解决问题并成长,提高企业内部运行运营的整体效率。

平台对运维效率提升的重要性和挑战

运维效率的提升很大一部分,在于不同角色的运维人员在不同的场景(故障处置、IT服务工作台、应急分析及处置等)中对知识的快速应用,其对提升运维效率非常重要,同时也面临很多挑战。

重要性

  • 知识复用:同样的数据库故障,在不同的应用系统下事件管理员需要同样的分析过程和咨询原厂商的过程,难以在事件再次发生的情况下有效识别,并进行知识复用。

  • 专家经验工具化:专家在处理问题时,通常都具有很强的专业背景和经验,这些知识如何有效的工具化,使一线的值班人员在处理简单、重复的问题时,可以在不同的场景直接获得专家的经验知识,快速解决问题,降低成本,让专家专注在更高效地提升客户体验上。

  • 快速问题解决 :运维知识及智能问答平台可以促进团队随时随地的知识使用和学习需求,使团队可以不断学习和改进运维流程和工具,最终快速问题解决,提高运维效率。

挑战

  • 知识有效利用:由于缺乏智能化手段(或成本高昂),老旧的知识库和自动问答系统只能作为存储和搜索数据库,难以有效利用存储在知识库中的知识。这也导致了对知识库的维护意愿不高。

  • 知识运用场景化:使用知识需要登录到知识库系统查询相关知识,而不是在不同的应用场景中。这导致了使用成本较高,例如在事件或应急场景下,是否能够在推送告警事件或应急场景时,同时推荐相关事件的知识或解决方案。

  • 知识反馈流程化:一旦知识进入系统,就很难发现其中的问题,因为无法有效利用。即使发现了问题,也需要经过冗长的流程和填写大量表单,这让大多数人望而却步。在场景化应用中,应该能够在使用流程的各个环节中遇到问题时进行实时且高效的反馈,润物细无声,而非刻意要去做某件事情。

基于大模型的平台建设解决方案

由于最近一年来大模型的智能化能力在知识及智能问答领域的突飞猛进,使得之前力不从心的知识及自动问答系统有了更好的技术手段可以满足人们对其的应用需求。

使用场景说明

故障排除与问题解决
  • 告警处置方案知识化:当事件管理员在告警管理工作台处置告警时,其对告警的最终分析处置解决方案可以同步知识库做为故障处置的知识存储。

  • 告警产生知识推荐:当事件管理员在告警管理工作台看到新产生的告警时,大模型可以直接推送针对该告警可能的解决方案知识信息,加速分析及处置效率。

应急场景

  • 应急手册:大型企业都会对一些重要的业务系统进行应急演练,并配置相应的应急手册,当出现故障时可以按应急预案进行操作,因此应急手册成为应急场景下的重要知识来源。

  • 应急知识推荐:在故障应急状态下,系统本身已经收集了应急的相关数据,这时可以根据应急状态下产生的告警信息由大模型分析之后,推荐应急操作预案、推荐针对单个告警的处置方案、甚至故障的成因也一并推送出来,这时可以辅助应急决策人员进行快速的应急处置和业务恢复。

已知故障
  • 厂商手册:应用研发厂商、技术组件厂商(开源或商业)一般会准备一些快速的故障排查及处置手册,这些会成为运维领域知识的重要组成部分,大模型通过对故障关键字的匹配可以精确找到故障的解决方案。

  • 运维专家或SRE工程师对故障的总结:这两个重要的角色在日常运维的过程中针对发现和处置的故障进行总结之后,会形成已知故障场景库,当再次发到类似的故障之后,可以直接推送针对当前故障的分析方法、处置恢复方案,减少专家介入和排查的时间成本。

运维管理规范
  • 也是重要的知识内容,当出现应急或重大事件的场景下,一般运维人员会采用各种方法找捷径去恢复业务,但是捷径代表不可预知的风险,因此在故障场景下,不仅要让当前的处置事件的工程师获取处置事件的知识、建议,同样也要告诉到他针对这类事件的处置要遵守某种操作规范。

工单处置结果
  • 工单处置结果知识化:来自工单系统的对某个工单的处置结果同样也可以做为知识的一部分,当处置完成之后这些信息会同步知识库。

  • 工单知识推荐:当某个工程师被分配工单之后,针对工单上所描述之故障的推荐知识也会随之提供出来。

IT服务台
  • 服务台客户服务知识化:日常服务台响应和回答用户或客户的问题,是最好的一问一答格式,可以经过审核和优化之后的标准答案做为知识库存储起来。

  • 服务台客户服务知识推荐:不论是来自电话语音还是文字的客户沟通问题,都实时转译为文字通过大模型从知识库中匹配最佳的答案提供客服人员或智能问答机器人进行快速的回复。

运维知识体系构建

图片

针对运维知识体系的构建,我们分成三个重要的组成部分:
  • 运维知识供献场景层:蓝色的部分,为运维领域的一些主要场景,其在进行业务开展的过程中会产生大量的知识,这些知识需要通过某种标准化的手段(自动的、模板化的)进入到传统知识管理层,对这些知识进行分门别类的管理。

  • 传统知识管理层:橙色的部分,知识构建和管理的过程同老旧的知识管理没有什么分别,可以用一些老版的管理工具,如wiki、conflunce甚至wordpress这种工具都可以很好地管理起来,在这里不再详述。

  • 基于大模型的知识库层:灰色的部分,这是同传统的知识体系应用不太一样的地方,传统上的应用会定时将这些知识存储到ES类的系统中以方便进行全文检索,然后提供算法对检索的内容进行排序,而基于大模型的知识检索和知识问答则需要将知识库中的信息转换为纯文本信息,然后再对文本进行分割(分割知识块),然后通过特定的算法将文本向量化之后存储在向量数据库中。(这个过程在互联网上大家可以找到非常多的内容来详细了解,在此不再详细描述)

针对知识的创建主要分为两类:
  • 手工知识创建:该过程可以让运维人员自行登录知识库系统并建立知识。

  • 基于场景化的知识创建:在运维的不同场景中结合场景来自动化创建相应的知识,如事件处理完成之后,对事件的总结性回顾的内容可以日终批量同步到知识库系统中,包括问题、问题描述及日志、问题产生的原因、解决方案这四个关键字段内容。

运维知识体系应用

图片

在收集了知识信息之后,剩下的部分就是知识的应用了,在“使用场景说明”章节中,已经详细介绍了在运维领域可能的使用场景,集成工作无非就是api嵌入到使用场景中,结合业务流程来进行使用,通过大模型的核心能力基于对应场景上下文信息,提供知识,满足场景使用需求。

以告警工作台为例,说明一下大模型场景下整个系统交互的处理流程:

首先,事件管理员在告警工作台看到了一条告警,对于这条告警自己也没有遇到过,这时当他打开这条告警进行分析时,系统会自动根据告警内容抛出一个“查询/提问”,如:针对下方这条告警系统要能够自动归纳出这是“CPU使用率异常”问题。

【次要告警(xx数据中心)】应用监控平台[APM],by10xxxxx,Linux服务器1分钟CPU负载高(实例:CPU),当前值:1.25,阈值:1 - 9999999,发生时间:09/17/2020 18:38:25 【详细信息:Cpu Number:8; 1 Min Load Average:9.99; D Process Number:0】【生产地址:*.168.1.*;所属资源池:暂无,序列号:210xxxxxxxxx0218】

1. 针对查询/提问的内容“cpu使用率异常”进行有效性检验,一般验证查询或提问的内容是否为空。

2. 针对查询/提问的内容进行向量化转换(大模型通用的一种实现方案将文本或知识进行向量化存储,同时查询也会先向量化,具体可以通过google了解一下技术细节)。

3. 通过向量化之后,需要到向量数据库进行查询跟该向量结果相似的内容,注意这一步一般是本地的算法工程来完成,找到跟该内容相似的所有内容,而不是将整个库提供给大模型,大模型是在此基础上进行推理。

4. 在基于向量的知识库中查询之后,会将满足条件的相似内容提交给大模型处理。

5. 在正式发送给大模型之前,需要Prompt处理,其实是让大模型进行角色扮演的指令,如针对上面一条告警生成的prompt建议如下:

你现在是一名运维领域的专家,主要处理一些重要的告警。请根据告警的问题“CPU使用率异常”,帮助推荐给出问题出现的大致原因和解决方案。

6. 这时调用大模型的接口对该prompt进行处理,注意在这里大模型可以是openAI提供的也可以是国内不同的企业所开发的大模型,由大模型针对查询的问题和相似的内容做出推理判断。

7. 针对大模型判断的结果输出给告警工作台,如下图所示:

图片

系统集成边界

图片

针对已有自动问答系统和知识库的企业用户,可以参照上图为系统集成边界,参照如上方式可以最大限度的保障企业已有的资产:

  • 核心的推理引擎:采用openAI或其它的大模型来增强智能问答或知识检索系统的效果。

  • 向量化知识库:传统的知识信息存储在关系数据库或ES这类系统中,而基于大模型的应用,则需要将其存放到向量数据库中,因此需要从传统知识库中同步相关的知识进向量化知识库,而对知道的管理过程,则保持不同。

  • 知识管理:知识管理过程,知道的采集、审核、保存,如果企业已有现成的系统,则可以不必替换。只是需要将信息同步到向量化知识库中。

  • 智能问答系统:老旧的智能问答系统一般已经完成了同部分使用场景的结合,这时不必对该系统进行全部替换,只是替换其核心的大模型推理引擎即可,如上图中利用openAI的部分,增强其知识的推理能力。

  • 用户提问:即使用场景的部分,需要将其提供的方式参照大模型的Promp标准进行提问即可。

注意:为了未来对大模型进行效果微调,在系统设计时,要记录相应的调用日志,或在业务流程中对大模型回馈的结果进行评价,这样可以做为人工标注的数据,可以优化模型。

(未完待续)

这篇关于AIOps探索 | 基于大模型构建高效的运维知识及智能问答平台(1)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/514531

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听