银行业智能运维的探索与实践

2023-11-23 17:32

本文主要是介绍银行业智能运维的探索与实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

国家的“十四五”规划里面多次提到数字化相关概念,其背后反映了一种趋势——从数字化经济、数字化生活到数字化国家。近年来产业数字化不断加速,金融业的数字化更是走在前列,银行作为金融业的主要机构也在经历数字化转型的过程,在银行业务高速增长的背后离不开IT系统的支撑与支持,因此对IT系统的依赖与日俱增。IT运维是IT系统自身的运营管理,随着混合架构、互联网应用与传统应用的双模态发展,云计算、大数据、5G、移动互联等技术的应用,一方面对银行的发展带来了极大的助力,同时也对传统的IT运维带来了很大的挑战,智能运维的应用正在逐渐成为银行IT运维的新方向,已经有一些银行开始了智能运维的实践探索。

银行传统运维的痛点

质量

IT运维关系到系统运行的稳定和持续,是银行经营的基础,在数字化程度很高的今天,可以说IT运维质量是银行经营的命脉之一。如果简单的以系统不停机、可持续作为衡量标准是一个粗放的目标,运维质量需要从运维工作的各个环节来提升质量,有多种衡量指标,有了过程的质量控制才能实现结果的可控。传统运维在衡量体系上缺乏手段和工具,例如对运维环节的风险评估比较片面,一些人工复核也缺少体系化,在准确度和覆盖面都有可能遗漏,从而影响整个运维质量。

成本

银行的运维会涉及到IT基础资源的规划、购买和使用,这些都直接关系到运维成本的高低。银行作为商业机构,肯定有控制成本的压力。传统运维根据数据中心的历史数据进行资源申请,有很大的局限性,不能根据业务系统的类型进行区分,某个系统是平稳型系统,还是一个波动型的系统,传统的评估是做不到的,因此在资源申请、规划、使用中就会产生过多的冗余或者不足,造成运维成本的上升。

效率

IT运维的效率可以从两个角度来看发展趋势。

一是在云环境和混合异构环境之下,IT运维的复杂度在不断上升。银行的业务系统本来就比较庞杂,前中后台的业务系统叠加了不同的技术路线、不同的产品,包括开源、半开源、商业化产品的混合使用,让底层的IT基础设施也各有差异。这就让IT运维要在跨系统的环境中实现,导致运维复杂不断攀升,一个有经验的运维管理人员发现故障后,也要消耗大量时间检查每一个系统,进行例如状态数据分析、抓包分析才能定位故障。这种运维效率在系统复杂、工作量大的环境中就显得捉襟见肘。

另一个角度,银行运维人员每天被各种运维事件拖住,处于“四处救火”的状态,其实非常被动。而且要求在人员不增加的情况下实现高效运维,这就需要从运维思路上改进——把运维处置从事中、事后向事前处置的方向来发展,通过更多的事前处置来提高整个运维的效率。这是一种防患于事前的思路,把事中向事前做,这样才能大幅度提升运维效率。

智能运维带来的四点变化

智能运维的兴起将为解决上述提到的质量、效率、成本的三大痛点带来大幅度的提升,智能运维通过数据、AI算法与人类专家库经验的结合,深入运维场景为IT运维带来跨越式的提升。从运维工作的环节上来看,可以带来以下四点明显的变化。

实现智能化监控

企业使用大量的监控工具如APM、NPM、日志、基础设施监控等,来实现各个技术栈的监控。然而大量无效无用数据会增加后端数据处理的压力,而数据的漏采可能导致问题、故障的漏报此外监控工具需要大量的人工调试配置、严重依赖运维人员的经验,人工成本巨大。在智能运维中,通过基于机器学习算法的智能数据采集器来实现智能的数据过滤、关键数据识别、采集密度与频率调整以及采集服务器的性能均衡,从而提升数据采集的准确度、最小化人为干预程度、降低人力成本以及提高运维管理效能。

智能化问题发现

企业IT系统规模的扩大、运维环境的复杂化,使得运维人员从海量的数据中发现问题的难度也越来越大。智能运维可以通过智能异常检测、故障关联分析、故障根因分析和智能异常预测等能力,帮助运维人员快速定位问题、追溯故障根源,并实现故障的预测预警。

以智能异常检测为例,通过基于密度算法的异常检测(LOF)方法、基于Ensemble的快速异常检测方法、基于历史数据模型的异常检测等方法等AI技术,能够自动、实时、准确地从监控数据中发现异常,为后续故障的分析与处理提供基础。

对故障进行根源分析是在众多可能引起故障的因素中,追溯到导致故障发生的症结所在,并找出根本性的解决方案。利用机器学习或者深度学习的方法可以找出不同因素的之间的强相关关系,并利用这些关系,推断出哪些因素是根本性的因素,帮助用户快速诊断问题、提高故障的定位速度以及修复效率。

智能化告警

传统的告警管理一般使用固定阈值并且需要运维人员手动设置,这种方式不仅工作量巨大且十分依赖运维人员的经验,阈值设置不当可能导致告警风暴或者告警漏报等后果。当监控环境发生变化时,原先的固定阈值无法满足告警管理的要求。智能运维采用动态基线告警方式,智能分析数据的动态基线(即相对于历史时刻,当前状态的数据范围),弥补了以往人为设置固定阈值的缺陷,智能地分析数据的发展趋势以及分析数据动态基线,从而对告警做出智能的判断。

各种监控工具会产生海量的告警信息,这些告警信息中可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低了运维工作的效率。智能运维针对短时、大量的、甚至是持续的冗余告警,可以通过相似度、相关性判断对这些冗余告警进行合并,从而为运维人员提供有效的告警信息,能够大幅降低运维工作的难度。

智能化处置

传统运维管理中对故障的处理非常依赖运维人员的经验,但人的经验无法覆盖所有故障范围,运维人员经验不足可能会使得运维效率低下或者产生错误决策。智能运维将API接入的实时监测结果或者预测结果引入决策知识库(智慧大脑)智能生成决策建议,并根据实际结果及趋势判断采用的处理策略,可以是人工处理或者自动处理,有效减少问题排查的时间、大幅提升问题解决的效率,提升企业运维的标准化程度。

某互联网银行智能运维实践

某互联网银行在运维管理中,以提升整体运维服务质量为导向,为行内提供全方位的运维服务,进而制定了智能运维的目标:整合现有的运维数据资源,完成运维数据智能分析平台的原始数据准备;通过对接现有现有工具平台,实现现有运维数据的智能分析,事件根因定位,容量预测,动态基线监控,变更辅助决策等能力;通过建设运维数据智能分析平台,完成运维工具智能化转型,积累智能运维经验,提高智能运维比例。

做好智能运维的准备工作

实践智能运维需要在运维数据的标准化和规范化做好充分准备。该银行把例如日志、交易、事件、CMDB、工单流程,这些源数据进行统一的归档管理,纳入归档平台,做好了运维数据的标准化和规范化。

策略知识库是提升智能运维的基座,日常处置的知识积累尤为重要,应该转化为知识库和自动化系统,从策略到智能,做的策略越多,后面的智能应用水平也越高。

此外,系统之间要充分开放API接口,才能打通各个系统。该行在系统之间接口开放上进行充分了准备,让智能运维的应用能够实现跨系统处置。

研发智能分析平台,探索智能运维场景

该银行启动了智能监控、智能分析项目。通过全方位的监控和数据采集,把系统监控、交易监控、业务监控的源数据进行整合,提供给智能分析平台,再对输入的数据进行算法输出,结合CMDB、事件平台做了一些智能运维的场景应用,包括异常检测、动态阈值、告警压缩、自愈、容量预测。

以异常检测为例。针对业务四大黄金指标而设计的智能曲线异常检测系统。四大黄金指标包括交易量 (业务实时产生的交易量)、业务成功率 (业务成功量 / 交易量)、系统成功率 (系统成功量 / 交易量, 业务成功量和系统成功量的区别在于是否明确捕捉到系统异常)、平均时延 (交易的平均耗时)。这四大黄金指标都是分钟级数据,因为过去只要影响到业务层面的故障,最终都会在这四个指标上有所体现。因此只要能准确捕捉到这四个指标的异常波动,就可以检测到所有影响业务的异常。

异常检测场景设计

以容量预测为例。传统方式是使用同环比监控,需要运维人员根据经验设置阀值。智能运维能够对异常事件实现自动发现和预警,彻底摆脱根据人工经验定义异常阈值,使用机器学习算法实现无阈值 KPI 曲线异常识别,针对关键容量指标、进行容量预测及告警、关联自动化平台实现自动扩缩容和资源回收。

小结

智能运维作为近几年新生的运维方向,其本质是用人工智能算法在多个方面替代人的判断和行为,其所面向的应用场景仍然与现有的运维场景相似,都可以根据事件的不同分为三大类,分别为针对历史事件、针对当前事件以及针对未来事件的智能运维。根据这三大分类也就形成了三大典型场景:一是分析类场景、二是检测类场景、三是预测类场景(故障自动化处置建立在上述三个场景之上)。

目前,银行业对智能运维的实践还处于探索阶段,许多实践领域需要数据、系统、算法与人类知识的结合,这不是一个机器算法完全代替人的实践,而是一个综合的工程化实践,需要对应用场景的深刻理解与各类工具的细致导入,人的经验不可或缺。因此,无论是银行业用户,还是IT供应商都应该从场景落地的角度出发去实践智能运维,以达到最佳的应用效果。

这篇关于银行业智能运维的探索与实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/419589

相关文章

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

基于 YOLOv5 的积水检测系统:打造高效智能的智慧城市应用

在城市发展中,积水问题日益严重,特别是在大雨过后,积水往往会影响交通甚至威胁人们的安全。通过现代计算机视觉技术,我们能够智能化地检测和识别积水区域,减少潜在危险。本文将介绍如何使用 YOLOv5 和 PyQt5 搭建一个积水检测系统,结合深度学习和直观的图形界面,为用户提供高效的解决方案。 源码地址: PyQt5+YoloV5 实现积水检测系统 预览: 项目背景

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个