Nginx实战:故障处理_后端服务正常,nginx偶发502(Bad Gateway)

2024-06-15 16:12

本文主要是介绍Nginx实战:故障处理_后端服务正常,nginx偶发502(Bad Gateway),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、故障场景

用户访问服务偶发报错【502 Bad Gateway】,但是服务后端正常运行。架构如下:

偶发502
转发
偶发502
用户
Nginx
B服务
A服务

二、问题线索

服务正常,但是nginx报错【502 Bad Gateway】,这代表nginx认为后端服务都不存活

首先会想到网络问题,是不是网络抖动导致的,检查没有问题,那么只能看看nginx的日志了

在nginx的日志中看到三个报错:

  1. 502 Bad Gateway (各个接口都有,不固定)
  2. 504 upstream teime out (单个接口报错,都是接口A)
  3. no live upstream while connect (各个接口都有,不固定)

三、问题原因

看到nginx的日志之后,就可以明确定位到原因了,是nginx的健康检查机制导致。

3.1、nginx的健康检查介绍

nginx的upstream有默认的健康检查机制(max_fails和fail_timeout)

这个健康检查机制的逻辑是:
在fail_timeout时间段之内,如果该节点累计异常次数大于或等于max_fails,那么这个节点就会被摘除fail_timeout时间,fail_timeout时间之后该实例会被重新加入,并且该节点的异常次数重置为0,重新开始进行新一轮的检查

fail_timeout默认值为10S,max_fails默认值为1。

【举个例子】

后端两个实例,1.1.1.1 实例卡死(进程在,无响应,访问到会报504),2.2.2.2正常

Nginx配置如下

	upstream test {server 1.1.1.1:8081 weight=1;server 2.2.2.2:8081 weight=1;}

那么用户第一次访问,如果访问到1.1.1.1实例,实例无响应,超过超时时间,报错504,1.1.1.1的fail次数达到1次(max_fails默认值为1)

1.1.1.1实例被剔除10秒(fail_timeout默认值为10秒)

这10秒内存访问都会落在正常的2.2.2.2实例上,访问正常

直到10秒之后,异常实例1.1.1.1被重新加入转发,用户访问到之后再次报错504,1.1.1.1再次被剔除10秒,周而复始

这就会出现一个很规律的异常现象,每10秒就会出现一次504访问超时(访问到1.1.1.1异常实例无响应,超时报错)

3.2、本次异常原因梳理

本次异常是几个因素配到一起导致出现的异常现象

  1. 一个高频接口响应时间长,超过60秒
  2. fail_timeout是默认值10S,max_fails是默认值1
  3. proxy_read_timeout后端响应超时时间设置的是60S

有一个接口响应时间大部分都大于proxy_read_timeout设置的后端响应超时时间60秒,每次请求到这个接口,这个接口转发到后端实例,这个后端实例在proxy_read_timeout时间内没有返回,nginx直接返回504,并且记录失败次数为1,因为达到最大失败次数1(max_fails默认值为1),所以将该后端直接剔除10秒(fail_timeout默认值为10秒)

而这个接口被调用频繁,有几率出现短暂时间,所有实例都被nginx剔除的情况,如下图所示:

在这里插入图片描述

所以会出现一个接口报错504(响应慢的接口),全部接口偶发502的情况(所有节点被剔除的时间段),并且nginx error日志偶发出现【no live upstream while connect 】

四、处理方法

1、根本解决还是优化那个慢接口
2、或者为耗时较长的慢接口单独设置upstream和server,这样不会影响其他接口。
3、调大proxy_read_timeout,不让慢接口出现504。
4、提高检测是否可用的频率,即调大max_fails,调小fail_timeout,使 fail_timeout/max_fails变小。

这篇关于Nginx实战:故障处理_后端服务正常,nginx偶发502(Bad Gateway)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1063941

相关文章

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python实现自动化接收与处理手机验证码

《Python实现自动化接收与处理手机验证码》在移动互联网时代,短信验证码已成为身份验证、账号注册等环节的重要安全手段,本文将介绍如何利用Python实现验证码的自动接收,识别与转发,需要的可以参考下... 目录引言一、准备工作1.1 硬件与软件需求1.2 环境配置二、核心功能实现2.1 短信监听与获取2.

如何自定义Nginx JSON日志格式配置

《如何自定义NginxJSON日志格式配置》Nginx作为最流行的Web服务器之一,其灵活的日志配置能力允许我们根据需求定制日志格式,本文将详细介绍如何配置Nginx以JSON格式记录访问日志,这种... 目录前言为什么选择jsON格式日志?配置步骤详解1. 安装Nginx服务2. 自定义JSON日志格式各

Python使用date模块进行日期处理的终极指南

《Python使用date模块进行日期处理的终极指南》在处理与时间相关的数据时,Python的date模块是开发者最趁手的工具之一,本文将用通俗的语言,结合真实案例,带您掌握date模块的六大核心功能... 目录引言一、date模块的核心功能1.1 日期表示1.2 日期计算1.3 日期比较二、六大常用方法详

Linux上设置Ollama服务配置(常用环境变量)

《Linux上设置Ollama服务配置(常用环境变量)》本文主要介绍了Linux上设置Ollama服务配置(常用环境变量),Ollama提供了多种环境变量供配置,如调试模式、模型目录等,下面就来介绍一... 目录在 linux 上设置环境变量配置 OllamPOgxSRJfa手动安装安装特定版本查看日志在

Nginx指令add_header和proxy_set_header的区别及说明

《Nginx指令add_header和proxy_set_header的区别及说明》:本文主要介绍Nginx指令add_header和proxy_set_header的区别及说明,具有很好的参考价... 目录Nginx指令add_header和proxy_set_header区别如何理解反向代理?proxy

利用Go语言开发文件操作工具轻松处理所有文件

《利用Go语言开发文件操作工具轻松处理所有文件》在后端开发中,文件操作是一个非常常见但又容易出错的场景,本文小编要向大家介绍一个强大的Go语言文件操作工具库,它能帮你轻松处理各种文件操作场景... 目录为什么需要这个工具?核心功能详解1. 文件/目录存javascript在性检查2. 批量创建目录3. 文件

SpringCloud之LoadBalancer负载均衡服务调用过程

《SpringCloud之LoadBalancer负载均衡服务调用过程》:本文主要介绍SpringCloud之LoadBalancer负载均衡服务调用过程,具有很好的参考价值,希望对大家有所帮助,... 目录前言一、LoadBalancer是什么?二、使用步骤1、启动consul2、客户端加入依赖3、以服务

Python实战之屏幕录制功能的实现

《Python实战之屏幕录制功能的实现》屏幕录制,即屏幕捕获,是指将计算机屏幕上的活动记录下来,生成视频文件,本文主要为大家介绍了如何使用Python实现这一功能,希望对大家有所帮助... 目录屏幕录制原理图像捕获音频捕获编码压缩输出保存完整的屏幕录制工具高级功能实时预览增加水印多平台支持屏幕录制原理屏幕

Java使用多线程处理未知任务数的方案介绍

《Java使用多线程处理未知任务数的方案介绍》这篇文章主要为大家详细介绍了Java如何使用多线程实现处理未知任务数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 知道任务个数,你可以定义好线程数规则,生成线程数去跑代码说明:1.虚拟线程池:使用 Executors.newVir