ShardingSphere Narayana XA 事务不回滚问题定位

2024-03-01 05:12

本文主要是介绍ShardingSphere Narayana XA 事务不回滚问题定位,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ShardingSphere Narayana XA 事务不回滚问题定位

问题背景

用户反馈,在使用 ShardingSphere + Narayana 执行 XA 事务时,发生报错:java.sql.SQLException: javax.transaction.RollbackException: TransactionImple.enlistResource - ARJUNA016064: The transaction is in an invalid state!
这个报错的含义简单来说就是这个事务已经在其他地方被标记成只可回滚了,不能再进行后续其他的操作。报错信息如下:

Caused by: java.sql.SQLException: javax.transaction.RollbackException: TransactionImple.enlistResource - ARJUNA016064: The transaction is in an invalid state!at org.apache.shardingsphere.transaction.xa.XAShardingSphereTransactionManager.getConnection(XAShardingSphereTransactionManager.java:101)at org.apache.shardingsphere.transaction.ConnectionTransaction.getConnection(ConnectionTransaction.java:102)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.createConnection(DriverDatabaseConnectionManager
.java:416)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.createConnections(DriverDatabaseConnectionManage
r.java:383)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.getConnections(DriverDatabaseConnectionManager.j
ava:357)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.getConnections(DriverDatabaseConnectionManager.j
ava:338)at org.apache.shardingsphere.infra.executor.sql.prepare.driver.DriverExecutionPrepareEngine.group(DriverExecutionPrepareEngine.java:89)at org.apache.shardingsphere.infra.executor.sql.prepare.AbstractExecutionPrepareEngine.prepare(AbstractExecutionPrepareEngine.java:73)at org.apache.shardingsphere.infra.executor.sql.prepare.AbstractExecutionPrepareEngine.prepare(AbstractExecutionPrepareEngine.java:61)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.createExecutionGroupContext(ShardingSpherePrepare
dStatement.java:764)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.useDriverToExecute(ShardingSpherePreparedStatement.java:717)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.executeWithExecutionContexts(ShardingSpherePreparedStatement.java:658)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.execute(ShardingSpherePreparedStatement.java:631)at org.apache.ibatis.executor.statement.PreparedStatementHandler.update(PreparedStatementHandler.java:44)at org.apache.ibatis.executor.statement.RoutingStatementHandler.update(RoutingStatementHandler.java:69)at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

问题分析

观察日志里有调用 setRollbackOnly 方法的日志,通过查看 setRollbackOnly 方法的调用链路,再结合报错是在 getConnection 时报的,那么调用 setRollbackOnly 方法应该发生在getConnection之前,极有可能是 enlistResource 地方报的。
![[img-20240123115238.png]]

通过查看 enlistResource 方法的逻辑,注释里写的是 xa start 语句没执行成功时会调用 markRollbackOnly 标识事务只可回滚。
![[img-20240123115315.png]]

开启 narayana trace 日志。
[[sf-xa-log.log]]
看日志 43 行
发现 enlistResource 操作前后有一个可疑日志。

-- xid unset
[2024-01-23 11:10:08,001] [com.arjuna.ats.internal.jta.resources.arjunacore.XAResourceRecord],[<init>],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[XAResourceRecord.XAResourceRecord ( ARJUNA016100: Xid unset, org.apache.shardingsphere.transaction.xa.spi.SingleXAResource@5c6c9ab9 ), record id=0:ffff0acf077d:837d:65af2e0d:4]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|-- set rollback only
[2024-01-23 11:10:08,357],[eciqs-core],[com.arjuna.ats.internal.jta.transaction.arjunacore.TransactionImple],[setRollbackOnly],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[TransactionImple.setRollbackOnly]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|-- 后续自动执行回滚操作日志
[2024-01-23 11:10:09,081],[eciqs-core],[com.arjuna.ats.internal.jta.transaction.arjunacore.BaseTransaction],[rollback],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[BaseTransaction.rollback]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|[2024-01-23 11:10:09,081],[eciqs-core],[com.arjuna.ats.internal.jta.transaction.arjunacore.TransactionImple],[rollbackAndDisassociate],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[TransactionImple.rollbackAndDisassociate]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|[2024-01-23 11:10:09,081],[eciqs-core],[com.arjuna.ats.arjuna.coordinator.BasicAction],[Abort],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[BasicAction::Abort() for action-id 0:ffff0acf077d:837d:65af2e0d:2]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|

日志显示的是 ARJUNA016100: Xid unset,正常日志应该如下:

2024-01-23 11:48:33.341 [main] TRACE com.arjuna.ats.jta - XAResourceRecord.XAResourceRecord ( < formatId=131077, gtrid_length=29, bqual_length=36, tx_uid=0:ffff7f000101:90ab:65af3711:2, node_name=1, branch_uid=0:ffff7f000101:90ab:65af3711:3, subordinatenodename=null, eis_name=0 >, com.zc.transaction.xa.SingleXACtrlResource@1fc793c2 ), record id=0:ffff7f000101:90ab:65af3711:4

ARJUNA016100: Xid unset

后续分析为什么会出现ARJUNA016100: Xid unset 异常。
搜索 ARJUNA016100 错误码,是在 xidImple.toString 里调用的。

原因,比如一个 xa 事务涉及两个 xa resources,在执行第一个 resource enlist 时候,由于 xid 有问题,start xid 在 mysql 上执行失败了,然后 Naryana 自己调用 com.arjuna.ats.internal.jta.transaction.arjunacore.TransactionImple#setRollbackOnly 方法将当前全局事务状态设置为 ActionStatus.ABORT_ONLY 状态。
那么当事务内第二个 xa resource 执行 enlist resource 操作时,由于当前事务已经标记为只回滚,所以执行报错。也就是最开始日志里报的错:java.sql.SQLException: javax.transaction.RollbackException: TransactionImple.enlistResource - ARJUNA016064: The transaction is in an invalid state!
相关代码如下:

public boolean enlistResource(XAResource xaRes, Object[] params)  throws RollbackException, IllegalStateException,  jakarta.transaction.SystemException  
{  // ...int status = getStatus();  switch (status)  {    // jakarta.transaction.Status.STATUS_MARKED_ROLLBACK 对应上面的 ActionStatus.ABORT_ONLY 状态,报错 invalid。case jakarta.transaction.Status.STATUS_MARKED_ROLLBACK:  throw new RollbackException(  "TransactionImple.enlistResource - " + jtaLogger.i18NLogger.get_transaction_arjunacore_invalidstate() );  case jakarta.transaction.Status.STATUS_ACTIVE:  break;  default:  throw new IllegalStateException( jtaLogger.i18NLogger.get_transaction_arjunacore_inactive() );  }

当出现报错后,后续 narayana 会自动执行回滚操作,参考 narayana 日志。

XID 为空原因

为什么 xid 会为空。
这个 xid 为空的报错是在 com.arjuna.ats.jta.xa.XidImple#toString 方法中报的,实际上是 com.arjuna.ats.jta.xa.XidImple#_theXid 为空导致。
在 XidImple 所有构造方法中打断点,看创建 xid 过程,哪里导致 _theXid 属性为空。

public XidImple(Uid id, boolean branch, Integer eisName) {  try {  // 可以看到如果创建 _theXid 失败,则捕获了异常_theXid = XATxConverter.getXid(id, branch, eisName);  } catch (Exception e) {  _theXid = null;  jtaLogger.i18NLogger.warn_cant_create_xid_of_branch(id, branch, eisName, e);  // abort or throw exception?  }  hashCode = getHash(_theXid);  
}

后续 debug 看日常信息,发现 xid 为 null,异常信息里有 ARJUNA016111: The node identifier cannot be null 信息,这个明显是没有读取到 jbossts.xml 配置文件导致的报错。

后续通过修改 Transaction Rule, 尝试刷新配置,发现错误依然存在。Debug 发现没有读取到 jbossts.xml 配置文件导致。

使用 arthas 查看应用里 ShardingSphere-JDBC 的 TransactionRule 属性正常,说明 Rule 正常刷新。
但是 arthas 查看 ObjectStoreEnvironmentBean 里的 jdbc 属性为空,说明没有读取到 jbossts.xml 配置文件。

sc -d *TransactionRule
vmtool --action getInstances -c 368239c8 --className org.apache.shardingsphere.transaction.rule.TransactionRule --limit 10 -x 2sc -d *ObjectStoreEnvironmentBean
vmtool --action getInstances -c 368239c8 --className com.arjuna.ats.arjuna.common.ObjectStoreEnvironmentBean --limit 10 -x 2

然后 Debug Narayana 启动逻辑,发现应用目录下并没有 jbossts.xml 配置文件。咨询用户发现应用系统每次部署启动阶段会清除目录下的所有文件,导致读取失败。

问题解决

用于该应用在启动阶段会清理目录下的配置文件,将 jbossts.xml 放到其他 Narayana 可以读取到的目录下即可。

参考

https://u01f1kqxrl.feishu.cn/wiki/YD11wifTiit5RgkmRINcDTxAnmJ

这篇关于ShardingSphere Narayana XA 事务不回滚问题定位的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/761318

相关文章

SpringKafka消息发布之KafkaTemplate与事务支持功能

《SpringKafka消息发布之KafkaTemplate与事务支持功能》通过本文介绍的基本用法、序列化选项、事务支持、错误处理和性能优化技术,开发者可以构建高效可靠的Kafka消息发布系统,事务支... 目录引言一、KafkaTemplate基础二、消息序列化三、事务支持机制四、错误处理与重试五、性能优

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》:本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

如何解决Spring MVC中响应乱码问题

《如何解决SpringMVC中响应乱码问题》:本文主要介绍如何解决SpringMVC中响应乱码问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC最新响应中乱码解决方式以前的解决办法这是比较通用的一种方法总结Spring MVC最新响应中乱码解

pip无法安装osgeo失败的问题解决

《pip无法安装osgeo失败的问题解决》本文主要介绍了pip无法安装osgeo失败的问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 进入官方提供的扩展包下载网站寻找版本适配的whl文件注意:要选择cp(python版本)和你py

解决Java中基于GeoTools的Shapefile读取乱码的问题

《解决Java中基于GeoTools的Shapefile读取乱码的问题》本文主要讨论了在使用Java编程语言进行地理信息数据解析时遇到的Shapefile属性信息乱码问题,以及根据不同的编码设置进行属... 目录前言1、Shapefile属性字段编码的情况:一、Shp文件常见的字符集编码1、System编码

Spring MVC使用视图解析的问题解读

《SpringMVC使用视图解析的问题解读》:本文主要介绍SpringMVC使用视图解析的问题解读,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC使用视图解析1. 会使用视图解析的情况2. 不会使用视图解析的情况总结Spring MVC使用视图

Redis解决缓存击穿问题的两种方法

《Redis解决缓存击穿问题的两种方法》缓存击穿问题也叫热点Key问题,就是⼀个被高并发访问并且缓存重建业务较复杂的key突然失效了,无数的请求访问会在瞬间给数据库带来巨大的冲击,本文给大家介绍了Re... 目录引言解决办法互斥锁(强一致,性能差)逻辑过期(高可用,性能优)设计逻辑过期时间引言缓存击穿:给