CNUTCon预告|百度运维专家对AIOps的思考

2024-03-14 01:59

本文主要是介绍CNUTCon预告|百度运维专家对AIOps的思考,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

9 月 10-11 日,CNUTCon2017 全球运维技术大会即将在上海开幕,百度共有5位运维领域的专家将在大会上分享他们对运维技术趋势的见解和体会,给予技术人在这方向上的启发与思考,相信能给大家带来更开阔的视野和思路!

以下是来自百度的重量级嘉宾的个人简介及演讲简介:

主会场演讲预告

王栋  百度基础技术体系主任架构师

为什么说AIOps是未来,百度的思考与实践


讲师简介:王栋,百度基础技术体系主任架构师,本科硕士毕业于清华大学计算机系,博士毕业于北京大学计算机系。曾就职于 Bell Labs 和 Google。2015 年加入百度,主要负责运维平台基础架构和智能化演进方向,参与和主导了百度智能运维 AIOps 平台的设计和研发过程,在 SREcon 和 LISA 等国际系统运维行业会议多次发表演讲。

演讲摘要:百度运维团队一直追求高质量的产品可用性和用户体验,最经济的硬件和带宽成本,高效的产品迭代速度,无人值守的场景化运维,并助力业务核心能力的构建。而百度运维平台也经历了基础运维平台、开放运维平台,到现在的智能化运维平台几个阶段。

本次王栋老师将分享百度对运维下一幕的思考——AIOps,以及 AIOps 在百度具体业务场景下的实践落地。

晚场活动预告

曲显平  百度智能运维平台负责人

CNUTCon夜聊:聊聊智能时代的新运维


出品人介绍:曲显平,智能化运维专场出品人,百度运维部技术经理。毕业于复旦大学,2009年加入百度;先后负责基础运维平台、运维数据仓库、智能化运维平台的研发,目前是百度运维平台研发和智能运维方向负责人。其所带领的团队在国际顶会(SIGCOMM、INFOCOM、CoNEXT、LISA、SREcon等)发表多篇重量级论文,参与多场talk。


CNUTCon夜聊简介:近年来,随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。Gartner的报告宣称,到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%。那就当下而言,我们应该如何理解AIOps?AIOps应该如何落地?

如果你希望一起探讨运维技术发展趋势,以及未来可能的变化,那不要错过9月10日晚上的夜聊活动,百度AIOps技术负责人曲显平将与宜信AIOps落地负责人,以及DevOps和SRE领域的技术大咖,通过夜聊的方式来和大家分享他们所看到和认为的运维发展趋势,同时,也会就最近业界发生的技术事件进行讨论,为国内的广大社区和技术从业者指明方向,相信这一定可以给你带来不一样的视野和思考。

大数据运维专场预告

李玉明 百度智能运维大数据存储平台负责人

度运维大数据存储平台设计与实践


讲师简介:李玉明,百度智能运维大数据存储平台负责人。负责运维大数据存储平台,包括大规模监控时序数据存储、海量运维事件数据存储和运维知识库建设等。自2008年中国科学院软件研究所硕士毕业后,在IBM中国研发中心从事数据库DB2内核引擎的研发工作。2014年加入百度,构建了大规模时序数据的分布式存储系统,当前承载百度运维十亿级指标、日均万亿级数据点的写入存储和查询。

演讲摘要:百度一直践行AI+大数据运维的理念,我们的智能化运维技术也构建在由海量运维数据采集、计算和存储系统所组成的运维大数据平台之上。规模上,我们监控了十亿量级的指标,日均采集万亿级的数据点,每日各类运维平台产生的运维事件数以千万计。在这种规模下,运维大数据平台不仅要求7*24持续高写入,而且承载50K QPS的查询压力,给系统的设计带来了空前的技术挑战。我们应用Redis、HBase、Elasticsearch等,来构建多层分布式存储架构,并通过运维特有的数据模型、极致的压缩算法和单IDC故障容灾等技术来解决上述问题和挑战。

本次talk,主要和大家分享百度构建运维大数据存储平台的经验和心得,主要内容围绕大规模时序数据存储技术(TSDB),此外也会包含百度的运维事件存储(EventDB)和运维知识库等技术。主要内容包括:

  1. 海量运维数据处理的技术挑战

  2. 大规模时序数据的存储

  3. 海量运维事件存储

  4. 运维知识库

听众受益

  1. 了解大数据运维&智能化运维问题场景和技术挑战

  2. 百度大规模运维数据存储的技术架构和经验心得

  3. 大规模分布式系统的设计和实践

智能化运维专场预告

曹轩  百度搜索运维团队技术负责人

基于日志trace的智能故障定位系统


讲师简介:曹轩,2011年硕士毕业后加入百度搜索运维团队,目前担任搜索运维团队技术负责人,长期从事搜索产品运维工作,积累了大量故障分析定位、大规模故障组织协调的经验,在高可用分布式系统设计、可靠性工程建模、弹性伸缩系统设计等方向,都有深入的见解和丰富的实战经验。

演讲摘要:传统的trace系统面对大规模系统故障时有以下几个问题:

  1. 日志回收处理能力强,但对于单PV的精细分析定位受限于人工分析速率,通常在分钟级每PV

  2. 大规模复杂异常时,抽样个别PV的定位结论,容易以偏概全,缺少汇聚回归

  3. 依赖于人的经验

因此,结合机器学习技术的进步,我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案,主要基于以下技术:基于GBDT的单PV根因预测模型;数据多维度汇聚与维度间信息熵排序;智能抽样系统;数据获取异步化、维度逐级下钻等一系列工程优化。

最终能够实现WQPS/sec的PV根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。

听众受益

  1. 复杂系统大规模故障自动定位的一次最佳实践,包含我们的方法论和理想方案的思考

  2. 机器学习技术与运维工具的有机结合,label-set的选取和折衷

  3. 日志trace系统在大规模高并发、高吞吐系统上的工程实践和折衷

运维自动化实践专场预告

王博  百度资深软件研发工程师

百度大规模时序指标自动异常检测实战


讲师简介:王博,百度资深软件研发工程师,2014年加入百度,先后参与异常检测系统、报警收敛、故障诊断等相关工作,目前是异常检测系统的技术负责人。本次演讲希望能给大家分享百度在时序数据的异常检测策略与工程方面的相关实践经验,与大家共同探讨提高。

演讲摘要:自动异常检测是监控系统中的重要环节,百度的业务种类繁多,业务的监控需求不尽相同,参数配置成本繁重,这给异常检测带来了巨大的挑战。怎样支持百度众多业务的流量、收入、拒绝等常见业务曲线监控?怎样支持O2O业务不定期运营活动场景下的异常检测?怎样给大规模时序数据快速配置异常检测算法及参数?本次将介绍百度自动异常检测系统及其核心技术能力,并针对大规模时序指标参数配置成本高的问题进行探讨,同时介绍我们设计的算法自主选择策略和参数自动配置算法。

听众受益

  1. 百度自动异常检测系统、核心技术能力及其主要算法

  2. 异常检测算法自主选择策略、参数自动配置算法及其实践

此外,王博老师在CNUTCon大会结束后,将在AIOps智能运维中与大家分享干货文章《百度大规模时序数据自动异常检测实战》,请大家持续关注AIOps智能运维!

点击文末“阅读原文”即可查看CNUTCon大会的详细信息。


这篇关于CNUTCon预告|百度运维专家对AIOps的思考的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/806890

相关文章

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

【编程底层思考】垃圾收集机制,GC算法,垃圾收集器类型概述

Java的垃圾收集(Garbage Collection,GC)机制是Java语言的一大特色,它负责自动管理内存的回收,释放不再使用的对象所占用的内存。以下是对Java垃圾收集机制的详细介绍: 一、垃圾收集机制概述: 对象存活判断:垃圾收集器定期检查堆内存中的对象,判断哪些对象是“垃圾”,即不再被任何引用链直接或间接引用的对象。内存回收:将判断为垃圾的对象占用的内存进行回收,以便重新使用。

Imageview在百度地图中实现点击事件

1.首先第一步,需要声明的全局有关类的引用 private BMapManager mBMapMan; private MapView mMapView; private MapController mMapController; private RadioGroup radiogroup; private RadioButton normalview; private RadioBu

网络安全运维培训一般多少钱

在当今数字化时代,网络安全已成为企业和个人关注的焦点。而网络安全运维作为保障网络安全的重要环节,其专业人才的需求也日益增长。许多人都对网络安全运维培训感兴趣,那么,网络安全运维培训一般多少钱呢?   一、影响网络安全运维培训价格的因素   1. 培训内容的深度和广度   不同的网络安全运维培训课程涵盖的内容有所不同。一些基础的培训课程可能主要涉及网络安全基础知识、常见安全工具的使用等,价

【编程底层思考】详解Java的JUC多线程并发编程底层组件AQS的作用及原理

Java中的AbstractQueuedSynchronizer(简称AQS)是位于java.util.concurrent.locks包中的一个核心组件,用于构建锁和其他同步器。AQS为实现依赖于FIFO(先进先出)等待队列的阻塞锁和相关同步器提供了一套高效、可扩展的框架。 一、AQS的作用 统一同步状态管理:AQS提供了一个int类型的成员变量state,用于表示同步状态。子类可以根据自己

知名AIGC人工智能专家培训讲师唐兴通谈AI大模型数字化转型数字新媒体营销与数字化销售

在过去的二十年里,中国企业在数字营销领域经历了一场惊心动魄的变革。从最初的懵懂无知到如今的游刃有余,这一路走来,既有模仿学习的艰辛,也有创新突破的喜悦。然而,站在人工智能时代的门槛上,我们不禁要问:下一个十年,中国企业将如何在数字营销的浪潮中乘风破浪? 一、从跟风到精通:中国数字营销的进化史 回顾过去,中国企业在数字营销领域的发展可谓是一部"跟风学习"的编年史。从最初的搜索引擎营销(SEM),

linux运维排查常用命令(开发专享)

cd: 进入到某个目录下 cd hikvision ll:详细展示该目录下有的文件 ll su 用户名:切换用户名 例子: su root 根据字符串在文件中查找信息:Grep –a –i 字符串 文件名 例子: grep -a -i 'indexCode=4a28a0dfe0244c0cbabcd9b2c3b60327' nms.nmsweb.debug.log cat 文

Node.js应用的高效部署与运维:从流程自动化到精细化监控

Node.js应用的高效部署与运维:从流程自动化到精细化监控 目录 🚀 使用 pm2 管理 Node.js 应用🐳 容器化部署(Docker)☁️ 云服务部署与自动化扩展📈 应用监控与健康状态维护🤖 自动化运维与流程优化🛠️ 版本控制与发布管理 🚀 使用 pm2 管理 Node.js 应用 pm2 是 Node.js 生态中非常重要的进程管理工具,它简化了 Node.j

一道算法题引发的动态内存管理的思考

在做PKU2762时,需要建邻接表。 于是按部就班写了下面一个插入边到邻接表中的函数: const int VMAX = 1010;typedef struct Graph{int vex;Graph* next;}Graph;Graph ArcGraph[VMAX];void insert(int u, int v){Graph* t = new Graph;Graph*