【OceanBase 诊断调优】—— 如何排查 RPC 失败的原因

2024-05-13 10:52

本文主要是介绍【OceanBase 诊断调优】—— 如何排查 RPC 失败的原因,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文链接:OceanBase分布式数据库-海量数据 笔笔算数

本文介绍如何排查 RPC 失败的原因

问题描述

RPC 发送失败通常在日志中表现为包含 rpc***fail 字段的错误信息。

execute rpc fail(ret=-XXXX, dst="xxx.xxx.xx.xx:xxxx")
rpc ***execute fail
send rpc request fail(****ret = -XXXX)

RPC 发送失败的报错一般有 rpc****fail 字段,这样的日志最开始排查往往发现于上层模块,比如 SQL 远程 TASK 执行等。 在 Client 端 RPC 发送失败的报错,绝大部份的原因都在 dst 端,比如 dst 端处理超时,内存不够等。所以首先要找到 dst 端的地址,然后尽量找到报错上下文中的 trace id、session id、packet id、tenant id 等信息,以便于接下来到 dst 端去找线索。

排查步骤

  1. 定位目标服务器(dst端)地址。 查找日志中的 dst 字段以获取目标服务器的 IP 地址和端口。 一般最先看到的报错都是在上层,调用 rpc_proxy 的接口发 rpc 的位置。比如:

    WARN  [SQL.EXE] task_execute_v2 (ob_executor_rpc_impl.cpp:249) [85354][2358][xxxxx-xxxxx] [lt=7] [dc=0] rpc task_execute fail(ret=-4121, tenant_id=1002, svr="100.xx.xxx.xxx:7328", timeout=35992570748, timeout_timestamp=1623161884727367)
    

    上述日志中已经有 tenant id(tenant_id=1002)和 dst 端的 IP (svr="100.xx.xxx.xxx:7328")。

  2. 根据线程号寻找上下文信息。

    使用线程号或其他关键信息在 Client 端的日志文件中进行搜索,以收集更多关于出错的 RPC 请求的细节。

    本示例中,线程号为 2358,通过 grep 过滤出信息。

    grep '\[2358' -rI observer.log.[timestamp]
    

    日志包含 trace id 和 session id 信息。

    [xxxxx-xxxxx] [lt=6] [2358] send packet fail(dst="xxx.xxx.xxx.xxx:xxx", s=0x7f35064b6e80)
    

    日志包含 session id,packet id 信息。

    INFO  easy_connection.c:1783 [2358][0][xxxxx-xxxxx] [lt=23] [dc=0] Session has timed out, session(0x7fa035596920), time(9.000155s), packet_id(2903925132279), conn(xxx.xxx.xxx.xxx:xxx_xxx.xxx.xxx.xxx:xxx_xxx_0x7fa2392d2270 tp=1 t=0-1623125894988005 s=0 r=20 io=112248771/2965041847 sq=2964878955)
    
  3. 在 dst 端搜索相关线索。

    到目标服务器的日志目录下,使用 trace id、packet id 或 session id 在相应的时间戳的日志文件中查找相关线索。

    理想情况下可以根据 trace_id 在对应时间的日志中查找线索,不限于 observer.logrootservice.log 日志。命令如下所示。

    grep 'xxxxx-xxxxx' -rI [dst_dir]/observer.log.[timestamp]
    
    grep 'xxxxx-xxxxx' -rI [dst_dir]/rootservice.log.[timestamp]
    
  4. 若无日志中包含如下信息,按照 xxxxxxx 进一步排查处理。若日志中不包含如下信息,跳转到步骤 5 进一步排查。

    easy_reqeust hold by upper-layer for too much time. req(0x7f6b78155378), timeout_warn_count(0), protocol(RPC), pcode(515), time(9.360041), packet_id(68569913622796), trace_id(xxxxx-xxxxx), trace_point(5)
    
  5. 若无日志另外用 trace_id 查找不到线索或查找不到任何日志,尝试用 packet id 或者 session id 查找线索。

    grep '[packet id]' -rI [dst_dir]/observer.log.[timestamp]
    
    grep '[session id]' -rI [dst_dir]/observer.log.[timestamp]
    
    注意

    括号内要换成实际的 ID 值。

  6. 如果通过上述方法无法在 dst 端找到日志,可以根据错误码,初步判断可能的错误原因。

    例如:

    1. 4012(超时): 可能是对端的队列积压等情况。可以根据 tenant_id,继续在 dst 端查看 tenant 的队列积压情况。详细排查方法,参见 XXX。

    2. 4013(内存满等): 检查内存使用情况,可能需要优化资源使用或扩容。

适用版本

OceanBase 数据库所有版本。

这篇关于【OceanBase 诊断调优】—— 如何排查 RPC 失败的原因的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/985496

相关文章

深度剖析SpringBoot日志性能提升的原因与解决

《深度剖析SpringBoot日志性能提升的原因与解决》日志记录本该是辅助工具,却为何成了性能瓶颈,SpringBoot如何用代码彻底破解日志导致的高延迟问题,感兴趣的小伙伴可以跟随小编一起学习一下... 目录前言第一章:日志性能陷阱的底层原理1.1 日志级别的“双刃剑”效应1.2 同步日志的“吞吐量杀手”

Java慢查询排查与性能调优完整实战指南

《Java慢查询排查与性能调优完整实战指南》Java调优是一个广泛的话题,它涵盖了代码优化、内存管理、并发处理等多个方面,:本文主要介绍Java慢查询排查与性能调优的相关资料,文中通过代码介绍的非... 目录1. 事故全景:从告警到定位1.1 事故时间线1.2 关键指标异常1.3 排查工具链2. 深度剖析:

Springboot项目启动失败提示找不到dao类的解决

《Springboot项目启动失败提示找不到dao类的解决》SpringBoot启动失败,因ProductServiceImpl未正确注入ProductDao,原因:Dao未注册为Bean,解决:在启... 目录错误描述原因解决方法总结***************************APPLICA编

Java.lang.InterruptedException被中止异常的原因及解决方案

《Java.lang.InterruptedException被中止异常的原因及解决方案》Java.lang.InterruptedException是线程被中断时抛出的异常,用于协作停止执行,常见于... 目录报错问题报错原因解决方法Java.lang.InterruptedException 是 Jav

java内存泄漏排查过程及解决

《java内存泄漏排查过程及解决》公司某服务内存持续增长,疑似内存泄漏,未触发OOM,排查方法包括检查JVM配置、分析GC执行状态、导出堆内存快照并用IDEAProfiler工具定位大对象及代码... 目录内存泄漏内存问题排查1.查看JVM内存配置2.分析gc是否正常执行3.导出 dump 各种工具分析4.

SpringBoot整合Dubbo+ZK注册失败的坑及解决

《SpringBoot整合Dubbo+ZK注册失败的坑及解决》使用Dubbo框架时,需在公共pom添加依赖,启动类加@EnableDubbo,实现类用@DubboService替代@Service,配... 目录1.先看下公共的pom(maven创建的pom工程)2.启动类上加@EnableDubbo3.实

解决1093 - You can‘t specify target table报错问题及原因分析

《解决1093-Youcan‘tspecifytargettable报错问题及原因分析》MySQL1093错误因UPDATE/DELETE语句的FROM子句直接引用目标表或嵌套子查询导致,... 目录报js错原因分析具体原因解决办法方法一:使用临时表方法二:使用JOIN方法三:使用EXISTS示例总结报错原

Java进程异常故障定位及排查过程

《Java进程异常故障定位及排查过程》:本文主要介绍Java进程异常故障定位及排查过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、故障发现与初步判断1. 监控系统告警2. 日志初步分析二、核心排查工具与步骤1. 进程状态检查2. CPU 飙升问题3. 内存

SpringSecurity显示用户账号已被锁定的原因及解决方案

《SpringSecurity显示用户账号已被锁定的原因及解决方案》SpringSecurity中用户账号被锁定问题源于UserDetails接口方法返回值错误,解决方案是修正isAccountNon... 目录SpringSecurity显示用户账号已被锁定的解决方案1.问题出现前的工作2.问题出现原因各

javax.net.ssl.SSLHandshakeException:异常原因及解决方案

《javax.net.ssl.SSLHandshakeException:异常原因及解决方案》javax.net.ssl.SSLHandshakeException是一个SSL握手异常,通常在建立SS... 目录报错原因在程序中绕过服务器的安全验证注意点最后多说一句报错原因一般出现这种问题是因为目标服务器