阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”

本文主要是介绍阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

云布道师

在这里插入图片描述

引言:近日,在南京上秦淮国际文化交流中心举办第八届未来网络发展大会上,阿里云凭借“超大规模云网络智能运维系统”一举斩获由中国通信学会专家组评选的“未来网络领先创新科技成果奖”,本次获奖也体现出阿里云在云网络技术领域科技创新实力获得业界的高度认可,评委专家一致认为“本项目针对云网络运维面临的成本、效率、实施性等挑战,突破了高性能运维数据管理、无人值守网络变更、高精度网络监控、全链路异常自愈等关键技术,研制了数智融合的超大规模智能云网络运维系统,提升了云网络系统的可靠性,支撑了阿里云全球 300 多万客户。活动现场由中国工程院院士刘韵洁亲自为各获奖单位颁发了获奖证书。

云计算技术高速发展所释放的技术红利,促使大量传统企业走上了“企业上云”的数字化转型之路。在过去十年间,云网络以每年超过 30% 的速度高速增长,展示了“企业上云”的强劲动力。企业上云规模的高速增长给云厂商带来高收益的同时,也对云厂商的技术能力提出了全新的挑战。阿里洛神云网络经过“十年磨一利剑”实现了全面自研的云网络操作系统,全面的满足了“多租户、大规模、高弹性”的网络性能需求。在满足网络性能需求的基础上,如何高效地运维超大规模云网络仍然是业界面临的难点问题,本文将全面揭秘阿里云洛神云网络子系统“齐天”如何构建“数智融合的一体化大规模云网络运维系统”,成为超大规模云网络高效运维的“定海神针”。

洛神掌河,大圣齐天
在阿里云中,很多系统都有着一个特殊的名字,这些名字诠释着属于工程师自己的浪漫。阿里云的核心是“飞天”操作系统,包含了“计算、存储、网络、安全”四大技术底座,其中云网络有一个属于自己的取自中华传统神话的名字“洛神”,洛神是掌管河水之神,象征着连接、汇聚和流动,这也契合了云网络连接数字世界的定位。洛神云网络的运维子系统取名为“齐天”,寓意着运维系统能够像“齐天大圣”一样会“万般变化”,能够应付云网络中数据管理、网络变更、故障发现以及设备应急等复杂的运维场景,同时也希望“齐天大圣”能够成为云网络稳定性的“定海神针”,为运行在云网络上的百万租户提供可靠的网络服务。为了实现这个目标,齐天历经八年的时间,将数据存储、分析处理、建模推理三大数据管理技术融合,对变更、监控以及应急三大运维场景进行一体化建设,突破了大规模云网络运维的四大核心技术,研制了数智融合的一体化大规模云网络运维系统。下面将对整个系统的核心设计进行全方面的揭秘。

直面天命,“智”斗妖魔
超大规模的云网络运维系统的建设之路,堪比“大圣”的取经之路,历经千难万险,一路降妖除魔,才能最终取得至宝真经。下面具体介绍齐天系统建设之路上遇到的“四大挑战”,如图 1 所示,大规模云网络运维面临“海量运维数据管理、百万设备升级维护、秒级网络异常发现和异构设备故障恢复”四大挑战。
图 1 大规模云网络运维系统面临的挑战
为了解决这些挑战,齐天采用“数智融合,运维一体”的思路,通过将数据存储、分析处理、建模推理三大数据管理技术融合;升级维护、网络监控、故障应急三大运维场景一体建设的方式研制了数智融合的一体化大规模云网络运维系统,系统整体架构如图 2 所示。系统整体包含数据管理、升级维护、网络监控以及故障应急四个核心模块,其中数据管理模块是运维系统的核心数据底座,支撑上面的不同运维场景;升级维护虽然是网络运维中的常规动作,受益于洛神云网络的 SDN 架构以及租户对于云网络功能需求的日益增加,云网络软硬件设备经常处于高频的升级变更过程中,因此齐天研发了无人值守的变更框架来解决云网络高频变更过程中的各类挑战;网络变更完成后,网络监控模块需要对变更后的云网络进行全面的监控来发现网络可能的异常状态;当监控系统发现异常后,为了尽可能降低租户受到网络异常的影响,齐天研发了全链路网络自愈技术来进行快速的故障应急。下面将分小节对每个核心模块进行深度揭秘。
图 2 数智融合的一体化大规模云网络运维系统
存算一体,数智融合
在 SDN 被网络行业全面拥抱之后,网络功能的迭代从主要依赖传统硬件厂商转到了各种由软件编写的转发组件中,并且有一个中心化的控制器来保证了网络配置的大规模高效下发。这个转变的背后是越来越多的网络状态和统计信息可以被转发软件开发者采集出来,从建立连接的速度,到报文经过每张流表的统计,甚至每个流的流量路径及节点/设备处理情况都可以方便的采集出来。丰富的网络状态/统计数据是 SDN 带给网络运维的福利,同时也带来了海量数据管理的挑战。

为了解决运维决策对海量数据的要求与运维系统对成本控制间的矛盾,齐天研制了数智融合的高性能运维数据管理技术,将海量多模态的网络数据统一存储,基于云原生的无状态分析引擎进行高性能处理,从时空多维度进行网络知识建模,实现了PB级海量多模态网络数据的高效率存储,千万级虚拟网络资源的批量建模以及毫秒级高性能网络数据分析。

网络变更,无人值守
针对百万级的设备规模与有限的运维人力间的矛盾,齐天设计并研发了多租户动态编排的无人值守网络变更技术,通过面向多租户的超高维度动态任务编排、基于微集群高速缓存的高性能任务下发以及主被协同的多指标结果评估算法来实现百万级网络设备的无人化零损变更,极大得提升了运维效率,降低了人力投入。

为了能让变更对每台网络设备的业务影响降到最低,齐天基于设备的多租户特性设计了面向多租户的超高维度动态任务编排技术。根据全局网络设备采集的多租户指标进行二阶段建模:第一阶段对每个租户维度指标进行时序预测,第二阶段对网络设备的租户指标按照租户业务权重拟合。通过二阶段建模为每台设备选择拟合后综合业务低谷进行变更任务编排,让每台网络设备的变更带来的综合业务影响最小。

针对网络设备变更后结果难评估的问题,齐天设计了一套基于主被协同的指标多维度结果评估算法,对每台网络设备的历史业务指标进行建模,实现被动指标评估与主动拨测检测相结合的多指标结果评估,及时发现变更异常从而快速阻断,减少变更异常影响。

意图感知,精准监控
针对高动态的网络资源与高实时的状态监控间的矛盾,齐天提出了以基于用户意图的虚拟网络测量技术为基础,通过机器学习对网络测量数据进行智能预测,从而实现高敏高精网络预警的能力,将网络的监控精度提升到报文级,时间精度提升到毫秒级,流量监控提升到实例级,预警精度提升到用户级,克服了由于多租户高动态给监控的精度和准确性带来的挑战。

针对线上环境的复杂性带来的告警准确性问题,齐天提出了基于网络语义解析的深度告警分析算法。通过优化机器学习模型对线上租户的工单和故障问询进行高精度 NLP 语义解析,及时识别业务异常工单,关联对应测量以及流量内部预警,从而精准匹配内部异常与租户反馈,大幅提升线上预警的准确性,为后续快速恢复提供关键数据支撑。

异常识别,全链自愈
针对强异构的网络设备与高效率的异常检测及恢复间的矛盾,齐天创新性地提出了基于多平面异常检测的全链路自愈能力,综合利用形式化验证以及可视化诊断来实现网络异常的全链路检测,通过对检测结果训练建设网络异常库,从而实现异常的快速分类和定位。针对大流量异常,采用可编程网卡辅助的流量反压实现快速自愈;针对分布式设备异常,采用软件调控流量调度的方式进行快速逃逸。

针对云网络内大量异构设备构成的复杂多平面网络链路,齐天采用多平面融合的全链路可视化诊断技术来实现快速问题定位,通过实时分析全链路网络配置及拓扑解析报文的完整流量路径,使用增强型网络决策树对全链路设备进行异常诊断,对物理网络、虚拟网络、租户网络三平面设备进行可视化投影关联,大幅提升了网络异常的诊断效率和效果。

总结过去,展望未来
在过去八年的时间里,阿里云洛神云网络子系统齐天,以数智融合、运维一体的思想贯穿始终,从运维数据、部署升级、网络监控与故障应急四个维度出发,重点突破了数智融合的高性能网络运维数据管理技术、多租户动态编排的无人值守网络变更技术、意图感知的自适应高精度网络监控技术、基于多平面异常检测的全链路自愈技术四个核心技术,研制出数智融合的一体化大规模云网络运维系统,支持了阿里云网络全网百万级网络设备全场景一体化运维,为阿里云 300 万客户提供了高质量的网络服务,护航了二十大会议、建党 100 周年活动、北京冬奥等国内外重大国事。同时,通过自主研发,齐天获得了一系列自主可控的知识产权,包括获得授权发明专利 40 余项,发表国际高水平论文 20 余篇。在中国信息通信研究院的测试认证中,齐天多项技术被评测为国际领先。经国际权威评测机构 Gartner 2021 年评测,齐天的 NIS 产品是全球唯一获得网络性能可视化能力评分的云网络产品。

这一系列技术成果诠释着齐天的工程师们在过去八年的不懈努力,同时我们也从未满足,仍然在不断前进。展望未来,齐天将继续推进“数智融合、运维一体”的整体思路,在网络稳定性、用户体验、运维成本等方面不断追求创新。依托齐天内部运维系统打造的 NIS(网络智能服务)产品将向阿里云网络的客户输出更多的新型运维能力,我们将持续践行“让网络更简单”的使命,推动云网络运维技术的创新发展。

这篇关于阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142469

相关文章

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

智能交通(二)——Spinger特刊推荐

特刊征稿 01  期刊名称: Autonomous Intelligent Systems  特刊名称: Understanding the Policy Shift  with the Digital Twins in Smart  Transportation and Mobility 截止时间: 开放提交:2024年1月20日 提交截止日

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念