一次压力测试Bug排查-epoll使用避坑指南

2024-04-29 02:38

本文主要是介绍一次压力测试Bug排查-epoll使用避坑指南,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文始发于个人公众号:两猿社,原创不易,求个关注

Bug复现

使用Webbench对服务器进行压力测试,创建1000个客户端,并发访问服务器10s,正常情况下有接近8万个HTTP请求访问服务器。

结果显示仅有7个请求被成功处理,0个请求处理失败,服务器也没有返回错误。此时,从浏览器端访问服务器,发现该请求也不能被处理和响应,必须将服务器重启后,浏览器端才能访问正常。


排查过程

通过查询服务器运行日志,对服务器接收HTTP请求连接,HTTP处理逻辑两部分进行排查。

日志中显示,7个请求报文为:GET / HTTP/1.0的HTTP请求被正确处理和响应,排除HTTP处理逻辑错误

因此,将重点放在接收HTTP请求连接部分。其中,服务器端接收HTTP请求的连接步骤为socket -> bind -> listen -> accept;客户端连接请求步骤为socket -> connect。

listen

#include<sys/socket.h>
int listen(int sockfd, int backlog)
  • 函数功能,把一个未连接的套接字转换成一个被动套接字,指示内核应接受指向该套接字的连接请求。根据TCP状态转换图,调用listen导致套接字从CLOSED状态转换成LISTEN状态
  • backlog是队列的长度,内核为任何一个给定的监听套接口维护两个队列:
    • 未完成连接队列(incomplete connection queue),每个这样的 SYN 分节对应其中一项:已由某个客户发出并到达服务器,而服务器正在等待完成相应的 TCP 三次握手过程。这些套接口处于 SYN_RCVD 状态
    • 已完成连接队列(completed connection queue),每个已完成 TCP 三次握手过程的客户对应其中一项。这些套接口处于ESTABLISHED状态
connect
  • 当有客户端主动连接(connect)服务器,Linux 内核就自动完成TCP 三次握手,该项就从未完成连接队列移到已完成连接队列的队尾,将建立好的连接自动存储到队列中,如此重复。
accept
  • 函数功能,从处于ESTABLISHED状态的连接队列头部取出一个已经完成的连接(三次握手之后)。
  • 如果这个队列没有已经完成的连接,accept函数就会阻塞,直到取出队列中已完成的用户连接为止。
  • 如果,服务器不能及时调用 accept取走队列中已完成的连接,队列满掉后,TCP就绪队列中剩下的连接都得不到处理,同时新的连接也不会到来。

从上面的分析中可以看出,accept如果没有将队列中的连接取完,就绪队列中剩下的连接都得不到处理,也不能接收新请求,这个特性与压力测试的Bug十分类似


定位accept


//对文件描述符设置非阻塞
int setnonblocking(int fd){int old_option=fcntl(fd,F_GETFL);int new_option=old_option | O_NONBLOCK;fcntl(fd,F_SETFL,new_option);return old_option;
}//将内核事件表注册读事件,ET模式,选择开启EPOLLONESHOT
void addfd(int epollfd,int fd,bool one_shot)
{epoll_event event;event.data.fd=fd;event.events=EPOLLIN|EPOLLET|EPOLLRDHUP;if(one_shot)event.events|=EPOLLONESHOT;epoll_ctl(epollfd,EPOLL_CTL_ADD,fd,&event);setnonblocking(fd);
}//创建内核事件表
epoll_event events[MAX_EVENT_NUMBER];
int epollfd=epoll_create(5);
assert(epollfd!=-1);//将listenfd设置为ET边缘触发
addfd(epollfd,listenfd,false);int number=epoll_wait(epollfd,events,MAX_EVENT_NUMBER,-1);if(number<0&&errno!=EINTR)
{printf("epoll failure\n");break;
}for(int i=0;i<number;i++)
{int sockfd=events[i].data.fd;//处理新到的客户连接if(sockfd==listenfd){struct sockaddr_in client_address;socklen_t client_addrlength=sizeof(client_address);//定位accept//从listenfd中接收数据int connfd=accept(listenfd,(struct sockaddr*)&client_address,&client_addrlength);if(connfd<0){printf("errno is:%d\n",errno);continue;}//TODO,逻辑处理}
}

分析代码发现,web端和服务器端建立连接,采用epoll的边缘触发模式同时监听多个文件描述符。

epoll的ET、LT
  • LT水平触发模式
    • epoll_wait检测到文件描述符有事件发生,则将其通知给应用程序,应用程序可以不立即处理该事件。
    • 当下一次调用epoll_wait时,epoll_wait还会再次向应用程序报告此事件,直至被处理。
  • ET边缘触发模式
    • epoll_wait检测到文件描述符有事件发生,则将其通知给应用程序,应用程序必须立即处理该事件。
    • 必须要一次性将数据读取完,使用非阻塞I/O,读取到出现eagain

从上面的定位分析,问题可能是错误使用epoll的ET模式


代码分析修改

尝试将listenfd设置为LT阻塞,或者ET非阻塞模式下while包裹accept对代码进行修改,这里以ET非阻塞为例。

for(int i=0;i<number;i++)
{int sockfd=events[i].data.fd;//处理新到的客户连接if(sockfd==listenfd){struct sockaddr_in client_address;socklen_t client_addrlength=sizeof(client_address);//从listenfd中接收数据//这里的代码出现使用错误while ((connfd = accept (listenfd, (struct sockaddr *) &remote, &addrlen)) > 0){if(connfd<0){printf("errno is:%d\n",errno);continue;}//TODO,逻辑处理}}
}

将代码修改后,重新进行压力测试,问题得到解决,服务器成功完成75617个访问请求,且没有出现任何失败的情况。压测结果如下:


复盘总结

  • Bug原因
    • established状态的连接队列backlog参数,历史上被定义为已连接队列和未连接队列两个的大小之和,大多数实现默认值为5。当连接较少时,队列不会变满,即使listenfd设置成ET非阻塞,不使用while一次性读取完,也不会出现Bug
    • 若此时1000个客户端同时对服务器发起连接请求,连接过多会造成established 状态的连接队列变满。但accept并没有使用while一次性读取完,只读取一个。因此,连接过多导致TCP就绪队列中剩下的连接都得不到处理,同时新的连接也不会到来。
  • 解决方案
    • 将listenfd设置成LT阻塞,或者ET非阻塞模式下while包裹accept即可解决问题。

该Bug的出现,本质上对epoll的ET和LT模式实践编程较少,没有深刻理解和深入应用。

如果觉得有所收获,请顺手点个关注吧,你们的举手之劳对我来说很重要。

这篇关于一次压力测试Bug排查-epoll使用避坑指南的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/944914

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

Vim使用基础篇

本文内容大部分来自 vimtutor,自带的教程的总结。在终端输入vimtutor 即可进入教程。 先总结一下,然后再分别介绍正常模式,插入模式,和可视模式三种模式下的命令。 目录 看完以后的汇总 1.正常模式(Normal模式) 1.移动光标 2.删除 3.【:】输入符 4.撤销 5.替换 6.重复命令【. ; ,】 7.复制粘贴 8.缩进 2.插入模式 INSERT

Lipowerline5.0 雷达电力应用软件下载使用

1.配网数据处理分析 针对配网线路点云数据,优化了分类算法,支持杆塔、导线、交跨线、建筑物、地面点和其他线路的自动分类;一键生成危险点报告和交跨报告;还能生成点云数据采集航线和自主巡检航线。 获取软件安装包联系邮箱:2895356150@qq.com,资源源于网络,本介绍用于学习使用,如有侵权请您联系删除! 2.新增快速版,简洁易上手 支持快速版和专业版切换使用,快速版界面简洁,保留主

如何免费的去使用connectedpapers?

免费使用connectedpapers 1. 打开谷歌浏览器2. 按住ctrl+shift+N,进入无痕模式3. 不需要登录(也就是访客模式)4. 两次用完,关闭无痕模式(继续重复步骤 2 - 4) 1. 打开谷歌浏览器 2. 按住ctrl+shift+N,进入无痕模式 输入网址:https://www.connectedpapers.com/ 3. 不需要登录(也就是

Toolbar+DrawerLayout使用详情结合网络各大神

最近也想搞下toolbar+drawerlayout的使用。结合网络上各大神的杰作,我把大部分的内容效果都完成了遍。现在记录下各个功能效果的实现以及一些细节注意点。 这图弹出两个菜单内容都是仿QQ界面的选项。左边一个是drawerlayout的弹窗。右边是toolbar的popup弹窗。 开始实现步骤详情: 1.创建toolbar布局跟drawerlayout布局 <?xml vers

C#中,decimal类型使用

在Microsoft SQL Server中numeric类型,在C#中使用的时候,需要用decimal类型与其对应,不能使用int等类型。 SQL:numeric C#:decimal

探索Elastic Search:强大的开源搜索引擎,详解及使用

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选,相信大家多多少少的都听说过它。它可以快速地储存、搜索和分析海量数据。就连维基百科、Stack Overflow、

flask 中使用 装饰器

因为要完成毕业设计,我用到fountain code做数据恢复。 于是在github上下载了fountain code的python原代码。 github上的作者用flask做了fountain code的demo。 flask是面向python的一个网站框架。 里面有用到装饰器。 今天笔试的时候,我也被问到了python的装饰器。

mathematica的使用

因为做实验用到Bloom filter这一技术,Bloom filter里面的数学公式可以用来画图。 那么用什么画图软件比较好呢? 当然是Mathematica啦。 利用代码Plot[{y=x},{x,0,100}] 就可以画出比较好的图 简直nice