排查专题

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

网络故障排查和tcpdump抓包

网络故障排查: ping一台服务器不通,你如何排查 检查本机ip地址设置  网关和dns服务器是否设置正确 或者ip地址冲突能否上网 看路由器是否有问题 ping服务器是否运行服务器禁止ping   防火墙设置 iptables -A INPUT -P ICMP -j DROPiptables -D INPUT -P ICMP -j DROP用户不能访问服务器 怎么排查 检查用户网络连接检查服

Arthas问题排查工具

简介 Arthas 是Alibaba开源的Java诊断工具,动态跟踪Java代码;实时监控JVM状态,可以在不中断程序执行的情况下轻松完成JVM相关问题排查工作 。支持JDK 6+,支持Linux/Mac/Windows。这个工具真的很好用,而且入门超简单,十分推荐。 使用场景 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?我改的代码为什么没有执行到?难道是我没

日本某地发生了一件谋杀案,警察通过排查确定杀人凶手必为4个 嫌疑犯的一个。以下为4个嫌疑犯的供词。

日本某地发生了一件谋杀案,警察通过排查确定杀人凶手必为4个 嫌疑犯的一个。以下为4个嫌疑犯的供词。 A说:不是我。 B说:是C。 C说:是D。 D说:C在胡说 已知3个人说了真话,1个人说的是假话。 现在请根据这些信息,写一个程序来确定到底谁是凶手。  static void Main()         {             int killer = 0;             fo

linux运维排查常用命令(开发专享)

cd: 进入到某个目录下 cd hikvision ll:详细展示该目录下有的文件 ll su 用户名:切换用户名 例子: su root 根据字符串在文件中查找信息:Grep –a –i 字符串 文件名 例子: grep -a -i 'indexCode=4a28a0dfe0244c0cbabcd9b2c3b60327' nms.nmsweb.debug.log cat 文

一次关于生产环境服务无故宕机的排查过程

故事的开始 这个故事是在一年之前,当时我们的系统运行在客户的k8s环境上。然后很神奇的是每个月底我们都会服务宕机,当然我们开启了多个实例。当时的容器线条就像心跳图一样(或许有些描述的不太准确,我没有找到当时那个像心电图一样的容器资源监控图)。 第一次的排查 当时我们还是很有信心去解决这个问题的。由于每个月的月底都是业务使用的高峰时段,也就是说,从表象上来看,qps一高,容器就挂。 业务日

排查 MyBatis XML 配置中的 IF 语句与传值名称不匹配的 Bug

文章目录 本文档只是为了留档方便以后工作运维,或者给同事分享文档内容比较简陋命令也不是特别全,不适合小白观看,如有不懂可以私信,上班期间都是在得 前言,在改一个bug得时候发现一个有意思得问题,就是mybatis得xml中if判断得问题,传值名字不匹配依旧可以进行判断,如下图 传值userName,但是有意思得事情出现了,进了if,并且没有报错,尝试了两次都是这

日志框架log4j打印异常堆栈信息携带traceId,方便接口异常排查

一、异常堆栈无traceId 排查定位问题异常痛苦        在日常项目开发中,我们会自定义一个traceId方便,链路追踪。在log4j2.xml 我们可能是这样去配置日志打印格式。 <Console name="CONSOLE" target="SYSTEM_OUT"><PatternLayoutpattern="${APP_NAME} %-d{yyyy-MM-dd HH:mm:ss}

BeanUtils.copyProperties复制属性失效排查

旁边的同事代码出现了bug, BeanUtils.copyProperties复制失败, 导致target类的值全是null BeanUtils.copyProperties复制是按照字段名称匹配的 首先注意字段名称是否完全对应, 以及对应的字段类型target的get和set类不全, 同事是因为类上没写@Data, 摸鱼帮忙排查了一些, 然后恍然大悟…

2024/9/4 Canlink配置介绍与常见故障排查

双击一个站进去配置,如果双击PLC则是PLC往外面发数据,双击伺服,则是伺服往外发数据。 例如我想读伺服的功能吗? 点击伺服的配置 将0b00的地址数据发给PLC(D100) ,寄存器长度是一个 然后下载程序即可

告别懵逼——前端项目调试与问题排查方法小结

在日常工作中,我们常常会遇到以下两类典型的挑战: 场景一: 接手无文档的老项目 1、情景描述: 你接手了一个历史久远的项目,项目文档缺失,前任开发者已经离开,而你对当前的业务逻辑和代码结构都不熟悉。然而,线上系统出现了故障,需要紧急解决。 2、挑战: 缺乏文档资料,难以快速了解系统架构。不熟悉业务流程,难以迅速定位问题。代码结构混乱,增加了调试难度。 场景二: 项目中出现难以复现的幽灵Bu

Spark 动态资源失效问题排查

文章目录 一、问题描述二、动态资源相关原理初试executor数量executor数量的变动1、Executor Add2、Executor Remove 三、问题定位Spark Task的本地化调度本地化调度级别没有及时推进导致的问题 四、解决方案1、问题一2、问题二3、总结 一、问题描述 最近开启动态资源后,有用户反馈他的任务运行很慢,去Spark HistorySer

Hive提交到yarn的任务一直在running问题排查

文章目录 一、问题描述二、问题排查Hive提交Spark任务流程问题定位问题总结 三、解决方案Tips: 一、问题描述 最近有数据平台的同学反馈yarn上面有一些任务跑了很久没有结束,状态一直处于running中。去Spark HistoryServer查看任务详情也没看到相关运行记录,需要人为手动kill任务才会停止并释放资源。 二、问题排查 从Spark His

yarn ResourceManager Active频繁易主问题排查

文章目录 一、故障现象二、问题分析RM的HA机制分析ZK问题分析部分任务状态更新失败问题分析 三、解决和优化方案1. 调大 jute.maxbuffer 参数2. 修改yarn的源码3. 快速让集群恢复稳定的方法 四、总结 本周三公司的yarn集群出现故障,导致两台ResourceManger频繁易主,并且许多提交到集群的任务状态为 NEW_SAVING,无法执行。这里对此次的故

Hive metastore 无法解析分区字段 is not null问题排查

文章目录 一、问题描述二、解决方案 一、问题描述 周中发现一个问题,metastore根据条件获取分区时发生异常,导致扫描所有分区,最终导致gc异常。 hive编译时会进行逻辑优化,在执行分区裁剪时,会根据相关的分区过滤条件去metastore查询要扫描的分区目录。metastore会根据hiveserver传过来的条件表达式进行解析,然后过滤不需要的分区。 目前的问题是h

大数据系列之:查看Centos服务器系统日志,排查应用进程oom情况,查看进程堆内存信息,查看进程启动参数设置

大数据系列之:查看Centos服务器系统日志,排查应用进程oom情况,查看进程堆内存信息,查看进程启动参数设置 查看Centos服务器系统日志查看应用进程oom日志查看进程堆内存信息查看进程启动参数设置 查看Centos服务器系统日志 cat /var/log/messages /var/log/messages是一个系统日志文件,用于记录系统的各种消息、事件和错误信息。

Oracle数据库锁表排查

--oracle查询哪些表被谁锁住了 select sess.sid, sess.serial#, lo.oracle_username, lo.os_user_name, ao.object_name, lo.locked_mode, sess.LOGON_TIME, sess.machine from v$locked_object lo, dba_objects ao,

【补-网络安全】日常运维(二)终端端口占用排查

文章目录 一、利用ipconfig、netstat 命令行统计二 、策略封禁IP 引言:检查频繁,第一步我们梳理完资产,第二步应该对资产终端进行一个排查,诊断把脉,了解清楚系统的端口占用及开放情况 一、利用ipconfig、netstat 命令行统计 1.先用ipconfig定位该终端的IP地址 2.明确IP地址后(0.0.0.0及IPv4地址开放的端口) 用 net

Linux 网络延迟排查工具

使用 hping3 和 wrk 等工具确认单个请求和并发请求的网络延迟是否正常。使用 traceroute,确认路由正确,并查看路由中每个网关跳跃点的延迟。使用 tcpdump 和 Wireshark 确认网络数据包是否正常收发。使用 strace 等观察应用程序对网络 socket 的调用是否正常。 安装 hping3 wget -O /etc/yum.repos.d/epel.repo h

线上PHP问题排查思路与实践

今天早上拜读了 @淘宝信海龙老师的博客中关于解决PHP线上问题的文章,条理清晰,有理有据,收获很大。特此和大家分享一下。 前言 前几天,在一淘网,腾讯网媒和微博商业技术联合组织的技术分享大会上,我分享了《在线PHP问题排查思路与实践》。此博文除了对PPT提供下载外,还会对ppt做简单的注释说明。主题分为三部分,常见问题,解决思路和案例分析。 常见问题 不同用户看到的错误可能不

centos7下的磁盘占用排查及清理的笔记

服务器磁盘空间持续增大,小白新手怎么查?记录以下一些常见的磁盘占用排查及清理的笔记。 查磁盘空间 主要是du。 首先,使用df命令查看各个磁盘分区的使用情况,找出哪个分区或挂载点的空间占用率异常高。 df -h 这个命令会列出所有挂载的文件系统及其使用情况,包括已用空间、可用空间和挂载点。  其次呢,您可以使用du命令结合sort进行磁盘空间的分析。以下是一个基本的命令序列,用于找出

Linux防火墙问题排查记录

问题描述 在业务当中,开通了防火墙,导致外部数据无法通过SFTP服务访问本机的服务,根据防火墙策略判断,应该是有一些IP没有被加进accept策略导致的,所以需要查看防火墙日志来追溯哪些IP被过滤掉了,只要放通这些IP,理论上就可以解决这个问题。 问题解决 防火墙添加日志、增加日志配置、重启防火墙 通过命令 systemctl status firewalld 查看防火墙状态,这是可以看到

Linux Kernel 6.12版预计将支持在崩溃后显示二维码 后续可以解码排查错误

7 月份时红帽工程师基于 systemd 255 + 版的全屏显示错误消息功能为 Linux Kernel 开发崩溃后显示二维码选项,这与微软在 Windows 10/11 蓝屏死机后显示二维码有异曲同工之妙。 不过 Linux 与 Windows 在崩溃时显示的二维码内容则有本质区别,因为 Windows BSOD 显示的二维码实际就是微软帮助文档的链接,属于固定内容二维码。 Linux

必备面试题:系统CPU飙高和GC频繁,如何排查?

点击上方“朱小厮的博客”,选择“设为星标” 做积极的人,而不是积极废人 来源:http://t.cn/EI9JdBu 处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的

如何排查系统的性能瓶颈点?

点击上方“朱小厮的博客”,选择“设为星标” 后台回复"书",获取 后台回复“k8s”,可领取k8s资料 梳理系统的性能瓶颈点这件事应该不是一件简单的事情,需要针对不同设计的系统来进行单独分析。 首先一套完整可用的系统应该是有ui界面的(这里强调的是一套完整的,可用的系统,而并不是指单独的一个中台系统),系统分为了前端模块和后端模块。 这里由于我个人的擅长领域更多是处于后端模块,所以对于系统的瓶

Java项目服务器CPU飙升问题排查

目录 一.前言 二.程序日志定位 三.Mysql事务定位 四.程序代码定位 五.微服务注册异常定位 六.异常进程定位 6.1.进程的线程信息分析 6.2.进程的堆内存分析 七.总结 八.JVM分析工具推荐 一.前言 系统出现反应慢,打不开,登录不上等问题。 二.程序日志定位 通过程序日志定位,数据库连接池出现连接超时异常,排查对象转到mysql数据库。