一次现网问题定位-Redis连接不断增长

2023-12-13 02:18

本文主要是介绍一次现网问题定位-Redis连接不断增长,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

系统原来是使用(HAProxy+Sentinel+redis)做的高可用方案,该方案HAProxy无法感知到主从切换,导致写操作失败。具体可参考之前的文章。
为了解决这个问题,拿掉了HAProxy,然后使用Jedis的Sentinel模式。

# 代码有删减
RedisSentinelConfiguration redisSentinelConfiguration = new RedisSentinelConfiguration(sentinel.getMaster(), sentinelHostAndPorts);
JedisPoolConfig jedisPoolConfig = new JedisPoolConfig();
JedisConnectionFactory jedisConnectionFactory = new JedisConnectionFactory(redisSentinelConfiguration, jedisPoolConfig);
jedisConnectionFactory.afterPropertiesSet();

切换新方案上线后,白天业务高峰期,redis报错:
org.springframework.data.redis.RedisConnectionFailureException: Cannot get Jedis connection; nested exception is redis.clients.jedis.exceptions.JedisConnectionException: open to many files.

定位思路

1.解决open to many files

open to many files一般是超过了系统打开文件数限制。linux一切皆文件,包括网络连接。因此猜测是网络高峰期网络请求太多导致。

解决方法

通过ulimit命令查看当前限制,并通过lsof -p pid查看进程当前已打开文件数。发现系统限制为4096,当前已打开文件数已达到这个限制。
因此先使用ulimit提高这个限制。

结果

当提高系统文件限制数量后,观测打开文件数仍在不断增长。对比以往业务量,这个现象明显有异常,因此分析连接的分布,发现大部分都是redis的连接

2.定位为什么redis的连接数会不断增长

对比之前版本,本版本只是修改的redis连接方式,运维这边怀疑是哨兵模式本身有问题。个人觉得redis哨兵模式几年前就发布了,要是有BUG,早报到开源社区修复了。之前分析哨兵模式源码时,主从切换jedis会清理连接池,而且redis本身没有事务(具备完整的acid特性,此处表达不够准确),访问完后就会释放连接,本身不应该有问题。
连接数不断增长有可能的原因应该就2点:
1.redis连接有泄漏,未回收                       --测试环境没有复现问题,此原因存疑。
2.现网就是有这么大访问量,导致redis连接需求有这么高。        --由于系统配置原因,无法使用jstack查看线程堆栈来确认这一点。(因为redis没有事务,执行完查询后,连接直接释放,所以一个线程理论上最多只会持有一个redis连接,所以可以通过线程堆栈来确认)

尝试一:确认redis连接释放是否存在失败的可能

经过源码排查(源码分析见另外一篇文章),不太有可能。

  • 如果释放失败,会抛异常打日志。
  • 如上jedis这个包已经在全球现网经受了考验,不太可能有这方面的bug。

尝试二:系统原班开发人员提供了一个疑点

执行multi命令后,未执行exec()方法。

stringRedisTemplate.multi();
stringRedisTemplate.boundHashOps(hkey).put(vkey, vval);
stringRedisTemplate.expireAt(hkey, TimeUtil.startDate(incre));

multi指令是为redis事务准备的,虽然无法进行回退,但是他能保证指令的原子性(redis是单线程的,通过multi包装的指令,redis一次性全部执行完,中间不会插入其他连接发过来的指令)。
为了保证指令的原子性,redis连接肯定是需要被绑定的(执行multi后,当前连接需要跟线程绑定,这样在执行exec前都需要从ThreadLocal去获取同一个连接),不然上面3行代码都是用不同的连接,是无法实现multi指令的。
初步看上述代码嫌疑很大。

结果,验证失败

本地按照现网的模式,写了一个测试代码,并使用redis客户端,通过info clients发现连接数并不如预期会不断增长。

                String prefix = "test";for (int i = 0; i < 100; i++) {String key = prefix + String.valueOf(i);new Thread(() -> {while (true) {stringRedisTemplate.multi();stringRedisTemplate.boundHashOps(key).put("a", "vval");stringRedisTemplate.expireAt(key, TimeUtil.startDate(1));try {Thread.sleep(2000);} catch (InterruptedException e) {e.printStackTrace();}}}).start();}

通过阅读源码发现,redistemplate只有启用enableTransactionSupport后,才会开启事务功能。
此配置未开启的情况下,即使是执行multi方法,执行完后释放连接的时候,会立即执行exec方法,进行自动提交。
大家可以执行跟踪muti方法的执行,主方法在Redistemplate#execute(RedisCallback action, boolean exposeConnection, boolean pipeline)

	public <T> T execute(RedisCallback<T> action, boolean exposeConnection, boolean pipeline) {RedisConnectionFactory factory = getRequiredConnectionFactory();RedisConnection conn = null;try {if (enableTransactionSupport) {# 如果开启事务,会对将Redis连接绑定到线程的上下文,方便后面执行获取到的是同一个连接。# 同时会对RedisConnection进行包装,因为需要拦截close方法,防止连接被回收到连接池conn = RedisConnectionUtils.bindConnection(factory, enableTransactionSupport);} else {# 走这个分支conn = RedisConnectionUtils.getConnection(factory);}boolean existingConnection = TransactionSynchronizationManager.hasResource(factory);T result = action.doInRedis(connToExpose);return postProcessResult(result, connToUse, existingConnection);} finally {# 执行完命令后,需要释放连接。这就是为啥之前强调一个线程最多只用使用一个redis连接。因为一般的指令执行完后,连接会立即释放# 线程里面的执行都是串行执行的,所以不可能一个线程同时执行2Redis方法,来持有2条redis连接RedisConnectionUtils.releaseConnection(conn, factory, enableTransactionSupport);}}

到此已经没有办法分析下去了。

尝试三:只能通过dump线程及内存去分析当前线程情况及内存对象。

之前现网jdk的命令执行不成功,因此准备在测试环境捣鼓一下,顺便看看测试环境是不是确实没问题。
准备工作:

  1. 使用命令dump内存,jmap -dump:format=b,file=xxx.bin pid
  2. 使用visualvm导入内存文件
    通过分析dump文件发现,redis连接确实存在泄漏。在这里插入图片描述
    如图:Redis的连接状态是ALLOCATED,但是除了连接池,却没有其他对象持有它。这个说明之前确实有使用到这个连接,而且使用这个连接的对象已经被回收了。

所以有2个方面的原因:

  1. 要么回收连接的时候,抛了异常导致状态没有修改成功。 --貌似不太可能,全球大量使用的库不可能有这种低级错误,而且自身排查源码也没发现什么疑点。
  2. 代码中是否用到了某个redis特性,开启了事务,同时未提交事务,导致连接未释放
  3. 有地方没有释放资源 --需要全面排查代码

对于第二点,如果开启了事务,会绑定连接到线程上下文的。可以追踪到TransactionSynchronizationManager#resources字段。被绑定的连接都是存在这个里面,因此想通过dump出来的内存,去查找这种对象的信息。遗憾的是,visualvm查找起来太麻烦,遂放弃。

于是找原班人马分析一下用到的redis高阶功能,这样可以快速缩小范围。
根据提供的范围,快速锁定了下面的代码。因为游标类似滑动窗口,一般都会保持与服务端的连接,这样可以实现分批次找服务端查询数据,防止单次查询数据量过大,内存溢出。这里代码又没有显示的关闭游标,泄漏很可能是这里导致。 (ps:要是还不是这个原因,真滴就脑壳疼了,已经快没招了,只能头铁去验证第二点了)

    public Map<String, String> hscan(final String key, int count) {ScanOptions scanOptions = ScanOptions.scanOptions().count(count).match("xxxx").build();Cursor<Map.Entry<Object, Object>> cursor = stringRedisTemplate.opsForHash().scan(key, scanOptions);while (cursor.hasNext()){Map.Entry<Object,Object> entry = cursor.next();result.put(entry.getKey().toString(),entry.getValue().toString());}return result;}

根据scan方法定位到RedisTemplate的executeWithStickyConnection方法,很惊喜的发现这里没有关闭连接。

	@Overridepublic <T extends Closeable> T executeWithStickyConnection(RedisCallback<T> callback) {Assert.isTrue(initialized, "template not initialized; call afterPropertiesSet() before using it");Assert.notNull(callback, "Callback object must not be null");RedisConnectionFactory factory = getRequiredConnectionFactory();RedisConnection connection = preProcessConnection(RedisConnectionUtils.doGetConnection(factory, true, false, false),false);return callback.doInRedis(connection);}

理论上上面的分析已经能够解释Redis连接泄漏的问题了,剩的就是本地复现。

答疑

为啥切换之前没有这个问题,切换之前,没有启用连接池。当Curse对象被GC回收后,RedisConection也会被GC被回收,从而释放连接。
切换后,RedisConection除了被Curse持有,还会被连接池持有。Curse回收后,RedisConection仍然在内存中,然后状态还是ALLOCATED无法被复用,这样新连接会不断的被创建,最终达到ulimit的限制。

补充-对“RedisConection也会被GC被回收,从而释放连接”的解释

jvm回收对象的时候,不会自动调用close方法,但是会调用finalize()方法清理资源。
RedisConection本身不占有系统资源,而是其持有的socket占有资源。通过代码跟踪可以看到,RedisConection不显示调用close,gc后也能关闭连接,是因为其持有的socket实现了finalize,并在gc的时候关闭了连接。

Jedis jedis = new Jedis("10.21.22.175",6381);
jedis.connect();

redis.clients.jedis.BinaryJedis#connect

public void connect() {this.client.connect();
}

redis.clients.jedis.Connection#connect

    public void connect() {if (!this.isConnected()) {try {this.socket = this.jedisSocketFactory.createSocket();this.outputStream = new RedisOutputStream(this.socket.getOutputStream());this.inputStream = new RedisInputStream(this.socket.getInputStream());}}}

redis.clients.jedis.DefaultJedisSocketFactory#createSocket

    public Socket createSocket() throws IOException {Socket socket = null;try {socket = new Socket();socket.setReuseAddress(true);socket.setKeepAlive(true);socket.setTcpNoDelay(true);socket.setSoLinger(true, 0);socket.connect(new InetSocketAddress(this.getHost(), this.getPort()), this.getConnectionTimeout());socket.setSoTimeout(this.getSoTimeout());# 代码有删减}

java.net.Socket#setImpl

    void setImpl() {if (factory != null) {impl = factory.createSocketImpl();checkOldImpl();} else {# 实际走的是这个分支impl = new SocksSocketImpl();}if (impl != null)impl.setSocket(this);}

SocksSocketImpl的父类AbstractPlainSocketImpl实现了finalize,并进行了连接关闭
java.net.AbstractPlainSocketImpl#finalize

    protected void finalize() throws IOException {close();}
测试方法

在java.net.AbstractPlainSocketImpl#finalize方法打一个断点,并观察该代码是否会被执行。

public class DemoApplication {public static void main(String[] args) {Jedis jedis = new Jedis("xx.xx.xx.xx",6379);jedis.connect();jedis = null;byte[] tmp;# 创建大量垃圾,触发gcfor (int i = 0; i < 10000; i++) {tmp = new byte[1024000];}while (true) {;}}
}

在这里插入图片描述

这篇关于一次现网问题定位-Redis连接不断增长的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/486796

相关文章

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型,前者是数组类型,后者是矩阵类型。数组

解决systemctl reload nginx重启Nginx服务报错:Job for nginx.service invalid问题

《解决systemctlreloadnginx重启Nginx服务报错:Jobfornginx.serviceinvalid问题》文章描述了通过`systemctlstatusnginx.se... 目录systemctl reload nginx重启Nginx服务报错:Job for nginx.javas

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Redis延迟队列的实现示例

《Redis延迟队列的实现示例》Redis延迟队列是一种使用Redis实现的消息队列,本文主要介绍了Redis延迟队列的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习... 目录一、什么是 Redis 延迟队列二、实现原理三、Java 代码示例四、注意事项五、使用 Redi

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

redis-cli命令行工具的使用小结

《redis-cli命令行工具的使用小结》redis-cli是Redis的命令行客户端,支持多种参数用于连接、操作和管理Redis数据库,本文给大家介绍redis-cli命令行工具的使用小结,感兴趣的... 目录基本连接参数基本连接方式连接远程服务器带密码连接操作与格式参数-r参数重复执行命令-i参数指定命

深入理解Redis大key的危害及解决方案

《深入理解Redis大key的危害及解决方案》本文主要介绍了深入理解Redis大key的危害及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、背景二、什么是大key三、大key评价标准四、大key 产生的原因与场景五、大key影响与危