[转发大师姐 李坤]MySQL参数 time_zone 导致线上sys cpu高

2023-10-17 14:50

本文主要是介绍[转发大师姐 李坤]MySQL参数 time_zone 导致线上sys cpu高,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

先放链接:https://mp.weixin.qq.com/s/AtyaIP92L6KnZFB9bQA3ug

帮qunar公众号宣传一波!!!


事故现场



16:27分钟时刻,系统CPU突然标高,大部分都是system,同时processlist暴增,running最高到1500,应用反应超时。

系统其他资源正常,io、网络、内存,都在正常使用范围。网络和io掉了一些,分析不是他们的问题。


线上有大量的这个sql:


select

         count(*)

        from db.table where create_time>= '2017-07-01 00:00:00' and create_time < '2017-08-0100:00:00'AND type='A';


表结构很简单,索引使用正常,表只有1w多行,查询的结果集也只有几千行。

这种情况,开始怀疑是并发突增,看了qps并没有增高,业务也没有变更,这个sql的qps也只有40,平时执行0.0xs。故障期间qps并没有突增,因此连接数增高、并发的增高解释为响应变慢。

而且cpu大量的sys这不正常,排查如下:   

  • 排查了硬件故障,建立链接会消耗syscpu,但应该是瞬间,不应该cpu是持续的

  • 排查了应用对端,如果tcp协议数据发的很慢,网络堆在mysql发送也会导致sys,同时导致增大链接,排查了没问题。

  • 数据库没有报错

  • 没有其他明显慢sql

  • 查询了以往并发突增导致的故障,并没有syscpu

线上临时把这个业务下线,解决了故障。但没有找到根本原因。

 

环境复现:



之后和开发在离线库抱着试一试的心态复现环境,开启30个线程去查询,也用了sysbench去压测这个sql,复现了问题。(之所以没有选线上从库,看之前的监控,写节点性能低,pxc从库qps也受到了影响)

异常现象和线上几乎一致,sys高,running高,qps低。


然后重点开始分析cpu。异常时系统级别cpu上下文切换偏高,是正常的10倍:


这里抓到cpu大量用在kernel的spin自旋锁:


pstack:看到大量的线程在调用 Time_zone_system 方法


这些线索,大量时间花在cpu的spin,联想到了之前分析时看到的文章,http://webcache.googleusercontent.com/search?q=cache:p_AeVu4QhL8J:glume.blog.chinaunix.net/uid-20708886-id-5105437.html+&cd=1&hl=zh-CN&ct=clnk&gl=hk


对于使用 timestamp 的场景,MySQL 在访问 timestamp 字段时会做时区转换,当 time_zone 设置为 system 时,MySQL 访问每一行的 timestamp 字段时,都会通过 libc 的时区函数,获取 Linux 设置的时区,在这个函数中会持有mutex,当大量并发SQL需要访问 timestamp 字段时,会出现 mutex 竞争。MySQL 访问每一行都会做这个时区转换,转换完后释放mutex,所有等待这个 mutex 的线程全部唤醒,结果又会只有一个线程会成功持有 mutex,其余又会再次sleep,这样就会导致 context switch 非常高但 qps 很低,系统吞吐量急剧下降。


总结下文章,就是当time_zone=system的时候,查询timestamp字段,会调用系统的时区做时区转换,有全局锁__libc_lock_lock的保护,导致线程并发环境下,系统性能受限。

如果将time_zone='+8:00'则不会调用系统时区,则不会触发系统时区转换,使用mysql自身转换,大大提高了性能。


结论



将time_zone改为'+8:00'后,再次压测性能正常,验证了上面的分析。


MySQL 中的 mutex 在获取不成功后,短暂spin,如果还不成功,会发生context switch。这个故障就是在读取系统时区转换函数时,持有了mutex,mutex独占的,大量的访问会出现资源竞争,读完才会释放mutex,导致其他并发线程的spin以及cs,从而导致高running和相应慢,cpu飙升,又加剧了其他sql的响应。


后话



qunar线上time_zone都设置的system,并且这个sql也上线有一段时间了,怎么突然出现问题。

根据开发所说,之前该表5k行,7月初开始量逐步加大。我也测试了如果读取数量降低到1k的话,是没有这个问题的,还有降低些qps(降低到10)都不会触发这个问题,因此想应该是qps和读取行数协调作用,每一行都会触发转换,触发了资源的争抢导致这个问题。



这篇关于[转发大师姐 李坤]MySQL参数 time_zone 导致线上sys cpu高的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/226132

相关文章

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

MySQL的JDBC编程详解

《MySQL的JDBC编程详解》:本文主要介绍MySQL的JDBC编程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、前置知识1. 引入依赖2. 认识 url二、JDBC 操作流程1. JDBC 的写操作2. JDBC 的读操作总结前言本文介绍了mysq

java.sql.SQLTransientConnectionException连接超时异常原因及解决方案

《java.sql.SQLTransientConnectionException连接超时异常原因及解决方案》:本文主要介绍java.sql.SQLTransientConnectionExcep... 目录一、引言二、异常信息分析三、可能的原因3.1 连接池配置不合理3.2 数据库负载过高3.3 连接泄漏

javacv依赖太大导致jar包也大的解决办法

《javacv依赖太大导致jar包也大的解决办法》随着项目的复杂度和依赖关系的增加,打包后的JAR包可能会变得很大,:本文主要介绍javacv依赖太大导致jar包也大的解决办法,文中通过代码介绍的... 目录前言1.检查依赖2.更改依赖3.检查副依赖总结 前言最近在写项目时,用到了Javacv里的获取视频

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

SpringBoot 获取请求参数的常用注解及用法

《SpringBoot获取请求参数的常用注解及用法》SpringBoot通过@RequestParam、@PathVariable等注解支持从HTTP请求中获取参数,涵盖查询、路径、请求体、头、C... 目录SpringBoot 提供了多种注解来方便地从 HTTP 请求中获取参数以下是主要的注解及其用法:1

HTTP 与 SpringBoot 参数提交与接收协议方式

《HTTP与SpringBoot参数提交与接收协议方式》HTTP参数提交方式包括URL查询、表单、JSON/XML、路径变量、头部、Cookie、GraphQL、WebSocket和SSE,依据... 目录HTTP 协议支持多种参数提交方式,主要取决于请求方法(Method)和内容类型(Content-Ty

Debian 13升级后网络转发等功能异常怎么办? 并非错误而是管理机制变更

《Debian13升级后网络转发等功能异常怎么办?并非错误而是管理机制变更》很多朋友反馈,更新到Debian13后网络转发等功能异常,这并非BUG而是Debian13Trixie调整... 日前 Debian 13 Trixie 发布后已经有众多网友升级到新版本,只不过升级后发现某些功能存在异常,例如网络转

MySQL中On duplicate key update的实现示例

《MySQL中Onduplicatekeyupdate的实现示例》ONDUPLICATEKEYUPDATE是一种MySQL的语法,它在插入新数据时,如果遇到唯一键冲突,则会执行更新操作,而不是抛... 目录1/ ON DUPLICATE KEY UPDATE的简介2/ ON DUPLICATE KEY UP

MySQL分库分表的实践示例

《MySQL分库分表的实践示例》MySQL分库分表适用于数据量大或并发压力高的场景,核心技术包括水平/垂直分片和分库,需应对分布式事务、跨库查询等挑战,通过中间件和解决方案实现,最佳实践为合理策略、备... 目录一、分库分表的触发条件1.1 数据量阈值1.2 并发压力二、分库分表的核心技术模块2.1 水平分