LSF - bjobs频繁查询导致集群性能问题的debug分析

2024-03-29 07:32

本文主要是介绍LSF - bjobs频繁查询导致集群性能问题的debug分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

LSF - bjobs频繁查询导致集群性能问题的debug分析

问题描述

用户user00在使用lshosts, bhosts, bjobs等mbd命令查询时,会出现连接LSF timeout的情况,如下所示

...snippet ommitted...
28
ls_gethostinfo(): Communication time out
fail
29
ls_gethostinfo(): Communication time out
fail
...snippet ommitted...

LSF is processing your request. Please wait ...

问题分析

根据Diagnose query requests说明,LSF管理员查看对应的性能日志,发现有大量的bjobs查询来自于机器sz-host-aa-0001的用户user01。单用户查询,全局总计高达700次/分钟。

$ badmin diagnose -c query -f /tmp/debug #启动query的日志收集。
$ badmin diagnose -c query -o #2分钟后,停止日志收集。
$ #下面进行日志查看
$ wc -l /tmp/debug.querylog.<master_hostname>
1400
$ tail -1 /tmp/debug.querylog.<master_hostname>
Jul 29 11:01:39 2021 bjobs,user01,sz-host-aa-0001,110864,0x1A
$ #count by username whose position is 6.
$ awk -F ' |,' '{count[$6]++}END{for (user in count) {print count[user],user}}' /tmp/debug.querylog.<master_hostname> | sort -nrk1
500 user01
16 user02
...

找用户user01核对,他正在跑synopsys sentaurus TCAD任务,会在GUI上提交LSF任务。用户将任务停掉后,频繁的查询随后消失。可以确认是user01跑的synopsys sentaurus TCAD导致的频繁查询操作。

资料查看

根据Sentaurus™ Device User Guide 搜关键字Job Polling interval所描述,工具在提交LSF任务后,会以一定时间间隔取查询任务。该间隔默认是1次/s,可以手工设置。有三个作用范围,分别是Global level,site level与user level,优先顺序是Global level < site level < user level

问题解决

由于本问题涉及的故障域其实是整个LSF集群,只是本问题刚好由某个工具触发了该故障。因此解决需要由两个方面入手:

  • 一是本case涉及的工具侧解决;
  • 二是LSF管理员需要设置查询频率限制,避免用户的不当查询导致集群性能问题。

解决详情:

  • 工具侧解决:按照上述资料查看的方法,在Global level的配置文件中,设置成60秒一次查询。并且写一篇指导,供用户参考写user level的配置!样例略;
  • LSF侧解决:根据Limit the number of batch queries所述,按照其介绍的方法设置即可。

问题延伸

发起大量query查询的,可能是用户的脚本、或工具调用的bjobs命令,也可能是调用了LSF的库,由库发起的查询。不同的场景需要不同的措施来应对。同时,研发环境要想健壮,必须考虑有小白用户或小白工具(这里说的小白工具,指的是发起密集query操作而不考虑整体集群性能的、不负责任的工具。这类工具通常是一些小创业公司开发的工具,他们往往只注重功能,不注重性能)的存在,因此管理员也需要做响应的优化——如限流。

总结

问题要找资料,总结以避免再次踩坑。

参考资料

https://www.researchgate.net/profile/Nabil_Ashraf2/post/How-to-obtain-photocurrent-and-incident-optical-power-to-calculate-responsivity-of-a-phototransistor/attachment/5a4372374cde266d587e004a/AS%3A576121978142721%401514369591383/download/Sentaurus_TCAD+manual.pdf

这篇关于LSF - bjobs频繁查询导致集群性能问题的debug分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/857989

相关文章

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,:本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分

javacv依赖太大导致jar包也大的解决办法

《javacv依赖太大导致jar包也大的解决办法》随着项目的复杂度和依赖关系的增加,打包后的JAR包可能会变得很大,:本文主要介绍javacv依赖太大导致jar包也大的解决办法,文中通过代码介绍的... 目录前言1.检查依赖2.更改依赖3.检查副依赖总结 前言最近在写项目时,用到了Javacv里的获取视频

Vue3绑定props默认值问题

《Vue3绑定props默认值问题》使用Vue3的defineProps配合TypeScript的interface定义props类型,并通过withDefaults设置默认值,使组件能安全访问传入的... 目录前言步骤步骤1:使用 defineProps 定义 Props步骤2:设置默认值总结前言使用T

Web服务器-Nginx-高并发问题

《Web服务器-Nginx-高并发问题》Nginx通过事件驱动、I/O多路复用和异步非阻塞技术高效处理高并发,结合动静分离和限流策略,提升性能与稳定性... 目录前言一、架构1. 原生多进程架构2. 事件驱动模型3. IO多路复用4. 异步非阻塞 I/O5. Nginx高并发配置实战二、动静分离1. 职责2

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化:从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度:打破默认阈值2. 避免装箱

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

Java实现复杂查询优化的7个技巧小结

《Java实现复杂查询优化的7个技巧小结》在Java项目中,复杂查询是开发者面临的“硬骨头”,本文将通过7个实战技巧,结合代码示例和性能对比,手把手教你如何让复杂查询变得优雅,大家可以根据需求进行选择... 目录一、复杂查询的痛点:为何你的代码“又臭又长”1.1冗余变量与中间状态1.2重复查询与性能陷阱1.

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

MySQL 表空却 ibd 文件过大的问题及解决方法

《MySQL表空却ibd文件过大的问题及解决方法》本文给大家介绍MySQL表空却ibd文件过大的问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考... 目录一、问题背景:表空却 “吃满” 磁盘的怪事二、问题复现:一步步编程还原异常场景1. 准备测试源表与数据