防火墙CPU频繁升高导致丢包案例一则

2024-03-26 16:44

本文主要是介绍防火墙CPU频繁升高导致丢包案例一则,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

关键词

  • 防火墙、cpu load、丢包
  • 限速、ACL
  • kdrvdp、debugging

     There are many things that can not be broken!

     如果觉得本文对你有帮助,欢迎点赞、收藏、评论!

一、问题现象

核心防火墙在业务高峰时间段,及日常配置安全策略提交/删除/修改后,都会触发CPU(Chassis 1 slot 2 CPU 1)升高现象,并导致业务网络丢包,网络时延大,故障频繁发生。

二、问题分析

通过普通的排查方式,查看高峰期时新建会话数top10,发现都是正常的业务;查看各端口流量,无异常;检测大流量分析查看IP流量,也没有异常的增高点。

故障现象的共同点是,每次CPU升高都是Chassis 1 slot 2 CPU 1同一块CPU,查看每块板卡上承载的业务,对比Chassis 1 slot 3 CPU 1与Chassis 1 slot 2 CPU 1没有区别,会话量一致,丢包率也一致;每次CPU告警的同时伴随vCPU核都会升高, 其中kdrvdp线程cpu负载上涨明显,而kdrvdp主要作用是处理转发业务流量。

三、处理过程

根据普通的排查方式抓取的会话数、流量、端口情况均未发现明显异常点,故准备在debug模式下抓取异常时的包文件进行分析:

1、先开启terminal monitor和terminal debugging;

2、设定监控阈值:monitor cpu-usage threshold 60 chassis 1 slot 2 cpu 1 core 4 to 47;

3、开启监控窗口:双击打开packet-capture.bat;

4、第一次当CPU值达到60%以上持续10秒钟,就会提示告警,并打印告警

5、对报文进行分析:

发现在故障时,抓包发现有两个高频出现的IP,产生了大量数据包。

尝试对高频的IP客户端的流量手工引流到其他板卡进行观察,查看板卡上丢包情况,与之前无明显区别,无明显效果;说明问题点不在两个高频IP问题上。

6、NAT映射的分析

故障板卡上有做NAT映射的配置,NAT映射的流量全部集中故障号板。怀疑可能是nat映射的流量导致,尝试对nat映射流量做了分流验证,查看板卡上丢包情况,但没有改善,问题依旧。

7、继续跟踪分析cpu核心处理信息,发现中间经历了ACL的过程,期间也有读锁过程,锁被ACL拿到后,发现没有其余足够的资源了,从而导致CPU使用率升高。

8、跟踪查看这段ACL策略,ACL有个加速功能未开启,同时发现ACL下条目非常多,依次回退之前的操作,关闭引流,测试开启这条ACL的accelerate加速功能。操作后,再次观察核心防火墙的运行状态,测试提交安全策略和高峰时期,CPU不再继续升高,故障问题解决。

9、故障原因最终定位是防火墙老的内核版本下有限速功能,且默认关闭模式,虽通过开启加速功能后,故障问题得以改善,考虑到防火墙老版本下还存在其他隐患点,在综合评估后,对防火墙系统做了一次版本升级,彻底解决该问题并防范其他隐患发生。

四、经验总结

防火墙CPU升高现象常有发生,当遇到常规操作和排查手段都经历了一遍无果时,不妨丰富排查的手段,例如开启debug抓取更多日志,一步一步查看后台消耗CPU的模块及异常问题点,同时根据发生的问题最小化测试定位验证问题,并最终解决问题。本次防火墙CPU高原因主要有2个:版本内核默认有CPU限速功能未开启;同时过多的ACL长连接检测导致CPU耗尽。后期产品运行过程中,针对厂商推荐的升版补丁,应在做好充分评估的前提下,考虑及时对版本进行一个升级割接,优化老配置下官方发布的一些已知隐患点,避免一些故障的发生。

这篇关于防火墙CPU频繁升高导致丢包案例一则的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/849174

相关文章

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

STM32 ADC+DMA导致写FLASH失败

最近用STM32G070系列的ADC+DMA采样时,遇到了一些小坑记录一下; 一、ADC+DMA采样时进入死循环; 解决方法:ADC-dma死循环问题_stm32 adc dma死机-CSDN博客 将ADC的DMA中断调整为最高,且增大ADCHAL_ADC_Start_DMA(&hadc1, (uint32_t*)adc_buffer, ADC_Buffer_Size); 的ADC_Bu

DAY16:什么是慢查询,导致的原因,优化方法 | undo log、redo log、binlog的用处 | MySQL有哪些锁

目录 什么是慢查询,导致的原因,优化方法 undo log、redo log、binlog的用处  MySQL有哪些锁   什么是慢查询,导致的原因,优化方法 数据库查询的执行时间超过指定的超时时间时,就被称为慢查询。 导致的原因: 查询语句比较复杂:查询涉及多个表,包含复杂的连接和子查询,可能导致执行时间较长。查询数据量大:当查询的数据量庞大时,即使查询本身并不复杂,也可能导致