一次奇怪的事故:机器网络连接打满,导致服务不可用

2024-02-26 23:44

本文主要是介绍一次奇怪的事故:机器网络连接打满,导致服务不可用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

业务背景

发生事故的业务系统是一个toB业务,业务是服务很多中小企业进行某项公共信息指标查询。系统特点:业务处理相对简单,但是流量大,且对请求响应要求较高:

业务请求峰值qps达50w,平时流量达20w左右。
请求响应时间需控制在50ms内。

系统整体架构如下:
在这里插入图片描述

为了方便下文描述,我简化一下业务处理逻辑:根据请求的内容,从数据库中查询对应的结果,然后返回,为了支撑大并发,把数据库中的数据全部缓存到了redis中,简单来说就是查询redis,返回结果。

业务系统的实现技术也比较常规,采用springboot+redis来完成。为了保证系统的高可用性,我们在系统的入口处添加了限流处理,正常单机可以处理1w并发,为了防止系统过载,限流阈值设置8000qps,超过8000的流量会进行降级处理:返回一个默认值。

在这里插入图片描述

整个业务服务集群70台机器,可以轻松抗住50w并发

系统自上线后的半年多的时间内,都比较稳定。不过就在前几天出了一个奇怪的问题。

事故描述

业务系统的前端的slb告警:新建网络连接过多

但是同一时刻后端服务的负载却是正常的,过了几秒后,
slb告警:与某几个后端服务实例健康检查失败

随后该后端服务实例,从slb上被摘除,实例上流量跌零

看到这一连串的告警,瞬间觉得很懵逼:发生什么事了?这个时候,查看监控,业务请求的qps并没有出现异常流量,请求的qps在45w左右,远没有超过系统容量。

查看日志发现:后端服务和redis之间的网络在刚刚出现了一点抖动,但是很快就恢复了正常了。

为什么后端服务与redis之间瞬间的网络抖动,会触发这么一连串的问题呢?更何况现在后端服务已经恢复了正常?

既然现在后端服务是正常的,那么就对这几个实例进行重启,实例重启后,实例重新注册到了slb上,流量正常进入,一切又恢复了正常。

事故起因

虽然线上问题解决了,但是我们心中的疑问并没有解决。

冷静过后,开发同学对刚刚的问题进行了复盘:为什么后端服务与redis之间短时间的网络抖动,会导致slb上连接被占满呢?看着两者好像没有什么关系

通过观察事故发生事件段内的监控和日志:
网络抖动期间,服务器实例创建了大量的网络连接,新建网络连接超过10000多个,平常只有几百个。

结合日志和监控,系统出现问题的大致流程如下:

后端服务与redis之间网络抖动,使服务实例与redis进行了连接重试,导致在那段时间内,该服务实例对请求的处理变慢

但slb到该实例的请求转发还是正常,因为后端服务请求处理的比较慢,所以slb需要和后端服务建立新的网络连接来进行新的请求的发送,新建连接发送的请求,被处理的速度依旧很慢,所以需要不断的建立新的连接,很快导致该实例所在的机器的网络连接被占满。

机器网络连接被占满后,slb再将请求转发到该机器上时,网络连接的建立就会被阻塞,直至超时,而超时后,slb又会进行重试,导致出现的大量链接建立行为,也就出现了slb连接创建过多的告警,这个时候slb与该实例的健康检查请求也会出现问题,导致该实例从slb上被摘除。

问题分析

问题的原因虽然找到了,但是这里还有几个问题需要继续讨论一下:

后端服务的限流配置是:该服务实例1s最大可以处理8000个请求,而网络连接被打满时,最多可以建立8000个链接,难道限流没有生效吗?

通过查看日志发现,事故时间段内,并没有达到限流的条件,也没有进行限流相关的处理。

看到这里就有点想不明白了,为什么创建了8000个链接,却没有触发限流呢?

其实这里要了解一个springboot中tomcat中关于网络连接相关的配置了,下面是本项目中关于tomcat的配置:

server:tomcat:accept-count: 1000max-connections: 8000

tomcat网络连接管理模型如下:

在这里插入图片描述

maxConnections:

服务程序可以在一定时间内接收并处理的连接数目如图1中queue-2,超过这个数,会根据acceptCount 这个值继续建立连接存放在queue-1中,但是该连接不会被处理,只有当queue-2中的连接数小于maxConnections值,queue-1中的连接才会进入queue-2中,该连接才有可能被执行。queue-2中的连接状态如图2标注所示。当同时请求数大于maxConnections+acceptCount 时,新的请求将会被拒绝连接。

acceptCount

超过maxConnections这个值的连接数将根据acceptCount这个值继续建立连接,如图1 queue-1,当queue-2的连接数小于maxConnections, queue-1的连接进入queue-2.

maxThreads:

服务程序可以同时处理的线程数如图1 ThreadPool,可以理解为通过设定 maxConnections=10 ,同时可以建立10个连接,maxThreads=3,则这10个连接中同时只有3个连接被处理,其余7个连接都在queue-2中等待被处理,等这3个连接处理完之后,其余的7个连接中的3个才可以被处理。如果处理完的3个连接关闭后,queue-1中就可以有3个连接进入queue-2。

总结来说:当客户端发送请求时,完成三次握手建立连接后,先进入queue1中,然后在转移到queue2中,然后在被ThreaPool中的线程处理。

我们系统中 maxConnections参数值 是8000,也就是进入系统的最大并发也就是8000,当系统请求处理比较慢时,系统中进行8000qps的限流,其实是不起作用的。

当服务业务处理变慢时,也就是ThreadPool从queue2中取出请求速度变慢了,那么queue2就会变满,进而queue1也会变满,此时,当再有请求过来时,就会等待,直到queue1空出一个位置,或者请求连接建立超时。

解决方案

到这里,我们明白了为什么机器实例的链接会被打满,以及系统服务的限流降级策无法生效了。

解决方案就比较简单了:
首先出现上述一连串问题的根本原因是:实例机器网络连接被占满。
所以解决方案的出发点就是:避免实例机器网络连接被占满,因此需要把maxConnections 和
我们将 acceptCount设置大一些

同时给业务系统添加请求处理响应时间的限流和降级策略。

这样可以保证流量都能进到系统中,而不至于连接建立失败,只是超过系统可承载的部分被限流出去了。

调整后的系统架构图如下:

在这里插入图片描述

这篇关于一次奇怪的事故:机器网络连接打满,导致服务不可用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/750549

相关文章

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

TP-Link PDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务

《TP-LinkPDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务》近期,路由器制造巨头普联(TP-Link)在用户群体中引发了一系列重要变动,上个月,公司发出了一则通知,明确要求所... 路由器厂商普联(TP-Link)上个月发布公告要求所有用户必须完成实名认证后才能继续使用普联提供的 D

C#多线程编程中导致死锁的常见陷阱和避免方法

《C#多线程编程中导致死锁的常见陷阱和避免方法》在C#多线程编程中,死锁(Deadlock)是一种常见的、令人头疼的错误,死锁通常发生在多个线程试图获取多个资源的锁时,导致相互等待对方释放资源,最终形... 目录引言1. 什么是死锁?死锁的典型条件:2. 导致死锁的常见原因2.1 锁的顺序问题错误示例:不同

微服务架构之使用RabbitMQ进行异步处理方式

《微服务架构之使用RabbitMQ进行异步处理方式》本文介绍了RabbitMQ的基本概念、异步调用处理逻辑、RabbitMQ的基本使用方法以及在SpringBoot项目中使用RabbitMQ解决高并发... 目录一.什么是RabbitMQ?二.异步调用处理逻辑:三.RabbitMQ的基本使用1.安装2.架构

Java中使用Java Mail实现邮件服务功能示例

《Java中使用JavaMail实现邮件服务功能示例》:本文主要介绍Java中使用JavaMail实现邮件服务功能的相关资料,文章还提供了一个发送邮件的示例代码,包括创建参数类、邮件类和执行结... 目录前言一、历史背景二编程、pom依赖三、API说明(一)Session (会话)(二)Message编程客

Python判断for循环最后一次的6种方法

《Python判断for循环最后一次的6种方法》在Python中,通常我们不会直接判断for循环是否正在执行最后一次迭代,因为Python的for循环是基于可迭代对象的,它不知道也不关心迭代的内部状态... 目录1.使用enuhttp://www.chinasem.cnmerate()和len()来判断for

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

解决systemctl reload nginx重启Nginx服务报错:Job for nginx.service invalid问题

《解决systemctlreloadnginx重启Nginx服务报错:Jobfornginx.serviceinvalid问题》文章描述了通过`systemctlstatusnginx.se... 目录systemctl reload nginx重启Nginx服务报错:Job for nginx.javas

电脑多久清理一次灰尘合? 合理清理电脑上灰尘的科普文

《电脑多久清理一次灰尘合?合理清理电脑上灰尘的科普文》聊起电脑清理灰尘这个话题,我可有不少话要说,你知道吗,电脑就像个勤劳的工人,每天不停地为我们服务,但时间一长,它也会“出汗”——也就是积累灰尘,... 灰尘的堆积几乎是所有电脑用户面临的问题。无论你的房间有多干净,或者你的电脑是否安装了灰尘过滤器,灰尘都

安卓链接正常显示,ios#符被转义%23导致链接访问404

原因分析: url中含有特殊字符 中文未编码 都有可能导致URL转换失败,所以需要对url编码处理  如下: guard let allowUrl = webUrl.addingPercentEncoding(withAllowedCharacters: .urlQueryAllowed) else {return} 后面发现当url中有#号时,会被误伤转义为%23,导致链接无法访问