LSF - bjobs频繁查询导致集群性能问题的debug分析

2024-03-29 07:32

本文主要是介绍LSF - bjobs频繁查询导致集群性能问题的debug分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LSF - bjobs频繁查询导致集群性能问题的debug分析

问题描述

用户user00在使用lshosts, bhosts, bjobs等mbd命令查询时,会出现连接LSF timeout的情况,如下所示

...snippet ommitted...
28
ls_gethostinfo(): Communication time out
fail
29
ls_gethostinfo(): Communication time out
fail
...snippet ommitted...

LSF is processing your request. Please wait ...

问题分析

根据Diagnose query requests说明,LSF管理员查看对应的性能日志,发现有大量的bjobs查询来自于机器sz-host-aa-0001的用户user01。单用户查询,全局总计高达700次/分钟。

$ badmin diagnose -c query -f /tmp/debug #启动query的日志收集。
$ badmin diagnose -c query -o #2分钟后,停止日志收集。
$ #下面进行日志查看
$ wc -l /tmp/debug.querylog.<master_hostname>
1400
$ tail -1 /tmp/debug.querylog.<master_hostname>
Jul 29 11:01:39 2021 bjobs,user01,sz-host-aa-0001,110864,0x1A
$ #count by username whose position is 6.
$ awk -F ' |,' '{count[$6]++}END{for (user in count) {print count[user],user}}' /tmp/debug.querylog.<master_hostname> | sort -nrk1
500 user01
16 user02
...

找用户user01核对,他正在跑synopsys sentaurus TCAD任务,会在GUI上提交LSF任务。用户将任务停掉后,频繁的查询随后消失。可以确认是user01跑的synopsys sentaurus TCAD导致的频繁查询操作。

资料查看

根据Sentaurus™ Device User Guide 搜关键字Job Polling interval所描述,工具在提交LSF任务后,会以一定时间间隔取查询任务。该间隔默认是1次/s,可以手工设置。有三个作用范围,分别是Global level,site level与user level,优先顺序是Global level < site level < user level

问题解决

由于本问题涉及的故障域其实是整个LSF集群,只是本问题刚好由某个工具触发了该故障。因此解决需要由两个方面入手:

  • 一是本case涉及的工具侧解决;
  • 二是LSF管理员需要设置查询频率限制,避免用户的不当查询导致集群性能问题。

解决详情:

  • 工具侧解决:按照上述资料查看的方法,在Global level的配置文件中,设置成60秒一次查询。并且写一篇指导,供用户参考写user level的配置!样例略;
  • LSF侧解决:根据Limit the number of batch queries所述,按照其介绍的方法设置即可。

问题延伸

发起大量query查询的,可能是用户的脚本、或工具调用的bjobs命令,也可能是调用了LSF的库,由库发起的查询。不同的场景需要不同的措施来应对。同时,研发环境要想健壮,必须考虑有小白用户或小白工具(这里说的小白工具,指的是发起密集query操作而不考虑整体集群性能的、不负责任的工具。这类工具通常是一些小创业公司开发的工具,他们往往只注重功能,不注重性能)的存在,因此管理员也需要做响应的优化——如限流。

总结

问题要找资料,总结以避免再次踩坑。

参考资料

https://www.researchgate.net/profile/Nabil_Ashraf2/post/How-to-obtain-photocurrent-and-incident-optical-power-to-calculate-responsivity-of-a-phototransistor/attachment/5a4372374cde266d587e004a/AS%3A576121978142721%401514369591383/download/Sentaurus_TCAD+manual.pdf

这篇关于LSF - bjobs频繁查询导致集群性能问题的debug分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/857989

相关文章

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令(如top、vmstat、iostat、htop等)及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

Jenkins分布式集群配置方式

《Jenkins分布式集群配置方式》:本文主要介绍Jenkins分布式集群配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装jenkins2.配置集群总结Jenkins是一个开源项目,它提供了一个容易使用的持续集成系统,并且提供了大量的plugin满

从入门到精通MySQL联合查询

《从入门到精通MySQL联合查询》:本文主要介绍从入门到精通MySQL联合查询,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下... 目录摘要1. 多表联合查询时mysql内部原理2. 内连接3. 外连接4. 自连接5. 子查询6. 合并查询7. 插入查询结果摘要前面我们学习了数据库设计时要满

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操

mysql表操作与查询功能详解

《mysql表操作与查询功能详解》本文系统讲解MySQL表操作与查询,涵盖创建、修改、复制表语法,基本查询结构及WHERE、GROUPBY等子句,本文结合实例代码给大家介绍的非常详细,感兴趣的朋友跟随... 目录01.表的操作1.1表操作概览1.2创建表1.3修改表1.4复制表02.基本查询操作2.1 SE