ShardingSphere Narayana XA 事务不回滚问题定位

2024-03-01 05:12

本文主要是介绍ShardingSphere Narayana XA 事务不回滚问题定位,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ShardingSphere Narayana XA 事务不回滚问题定位

问题背景

用户反馈,在使用 ShardingSphere + Narayana 执行 XA 事务时,发生报错:java.sql.SQLException: javax.transaction.RollbackException: TransactionImple.enlistResource - ARJUNA016064: The transaction is in an invalid state!
这个报错的含义简单来说就是这个事务已经在其他地方被标记成只可回滚了,不能再进行后续其他的操作。报错信息如下:

Caused by: java.sql.SQLException: javax.transaction.RollbackException: TransactionImple.enlistResource - ARJUNA016064: The transaction is in an invalid state!at org.apache.shardingsphere.transaction.xa.XAShardingSphereTransactionManager.getConnection(XAShardingSphereTransactionManager.java:101)at org.apache.shardingsphere.transaction.ConnectionTransaction.getConnection(ConnectionTransaction.java:102)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.createConnection(DriverDatabaseConnectionManager
.java:416)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.createConnections(DriverDatabaseConnectionManage
r.java:383)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.getConnections(DriverDatabaseConnectionManager.j
ava:357)at org.apache.shardingsphere.driver.jdbc.core.connection.DriverDatabaseConnectionManager.getConnections(DriverDatabaseConnectionManager.j
ava:338)at org.apache.shardingsphere.infra.executor.sql.prepare.driver.DriverExecutionPrepareEngine.group(DriverExecutionPrepareEngine.java:89)at org.apache.shardingsphere.infra.executor.sql.prepare.AbstractExecutionPrepareEngine.prepare(AbstractExecutionPrepareEngine.java:73)at org.apache.shardingsphere.infra.executor.sql.prepare.AbstractExecutionPrepareEngine.prepare(AbstractExecutionPrepareEngine.java:61)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.createExecutionGroupContext(ShardingSpherePrepare
dStatement.java:764)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.useDriverToExecute(ShardingSpherePreparedStatement.java:717)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.executeWithExecutionContexts(ShardingSpherePreparedStatement.java:658)at org.apache.shardingsphere.driver.jdbc.core.statement.ShardingSpherePreparedStatement.execute(ShardingSpherePreparedStatement.java:631)at org.apache.ibatis.executor.statement.PreparedStatementHandler.update(PreparedStatementHandler.java:44)at org.apache.ibatis.executor.statement.RoutingStatementHandler.update(RoutingStatementHandler.java:69)at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

问题分析

观察日志里有调用 setRollbackOnly 方法的日志,通过查看 setRollbackOnly 方法的调用链路,再结合报错是在 getConnection 时报的,那么调用 setRollbackOnly 方法应该发生在getConnection之前,极有可能是 enlistResource 地方报的。
![[img-20240123115238.png]]

通过查看 enlistResource 方法的逻辑,注释里写的是 xa start 语句没执行成功时会调用 markRollbackOnly 标识事务只可回滚。
![[img-20240123115315.png]]

开启 narayana trace 日志。
[[sf-xa-log.log]]
看日志 43 行
发现 enlistResource 操作前后有一个可疑日志。

-- xid unset
[2024-01-23 11:10:08,001] [com.arjuna.ats.internal.jta.resources.arjunacore.XAResourceRecord],[<init>],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[XAResourceRecord.XAResourceRecord ( ARJUNA016100: Xid unset, org.apache.shardingsphere.transaction.xa.spi.SingleXAResource@5c6c9ab9 ), record id=0:ffff0acf077d:837d:65af2e0d:4]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|-- set rollback only
[2024-01-23 11:10:08,357],[eciqs-core],[com.arjuna.ats.internal.jta.transaction.arjunacore.TransactionImple],[setRollbackOnly],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[TransactionImple.setRollbackOnly]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|-- 后续自动执行回滚操作日志
[2024-01-23 11:10:09,081],[eciqs-core],[com.arjuna.ats.internal.jta.transaction.arjunacore.BaseTransaction],[rollback],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[BaseTransaction.rollback]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|[2024-01-23 11:10:09,081],[eciqs-core],[com.arjuna.ats.internal.jta.transaction.arjunacore.TransactionImple],[rollbackAndDisassociate],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[TransactionImple.rollbackAndDisassociate]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|[2024-01-23 11:10:09,081],[eciqs-core],[com.arjuna.ats.arjuna.coordinator.BasicAction],[Abort],[XNIO-1 task-1],[INFO],[202401231110026b2ab483e6ae4d43bd055383c3d57d30-0],[],[BasicAction::Abort() for action-id 0:ffff0acf077d:837d:65af2e0d:2]|[TID:323d025cef50474aa2ffdd4dc341a97a.316543.17059794010875173]|

日志显示的是 ARJUNA016100: Xid unset,正常日志应该如下:

2024-01-23 11:48:33.341 [main] TRACE com.arjuna.ats.jta - XAResourceRecord.XAResourceRecord ( < formatId=131077, gtrid_length=29, bqual_length=36, tx_uid=0:ffff7f000101:90ab:65af3711:2, node_name=1, branch_uid=0:ffff7f000101:90ab:65af3711:3, subordinatenodename=null, eis_name=0 >, com.zc.transaction.xa.SingleXACtrlResource@1fc793c2 ), record id=0:ffff7f000101:90ab:65af3711:4

ARJUNA016100: Xid unset

后续分析为什么会出现ARJUNA016100: Xid unset 异常。
搜索 ARJUNA016100 错误码,是在 xidImple.toString 里调用的。

原因,比如一个 xa 事务涉及两个 xa resources,在执行第一个 resource enlist 时候,由于 xid 有问题,start xid 在 mysql 上执行失败了,然后 Naryana 自己调用 com.arjuna.ats.internal.jta.transaction.arjunacore.TransactionImple#setRollbackOnly 方法将当前全局事务状态设置为 ActionStatus.ABORT_ONLY 状态。
那么当事务内第二个 xa resource 执行 enlist resource 操作时,由于当前事务已经标记为只回滚,所以执行报错。也就是最开始日志里报的错:java.sql.SQLException: javax.transaction.RollbackException: TransactionImple.enlistResource - ARJUNA016064: The transaction is in an invalid state!
相关代码如下:

public boolean enlistResource(XAResource xaRes, Object[] params)  throws RollbackException, IllegalStateException,  jakarta.transaction.SystemException  
{  // ...int status = getStatus();  switch (status)  {    // jakarta.transaction.Status.STATUS_MARKED_ROLLBACK 对应上面的 ActionStatus.ABORT_ONLY 状态,报错 invalid。case jakarta.transaction.Status.STATUS_MARKED_ROLLBACK:  throw new RollbackException(  "TransactionImple.enlistResource - " + jtaLogger.i18NLogger.get_transaction_arjunacore_invalidstate() );  case jakarta.transaction.Status.STATUS_ACTIVE:  break;  default:  throw new IllegalStateException( jtaLogger.i18NLogger.get_transaction_arjunacore_inactive() );  }

当出现报错后,后续 narayana 会自动执行回滚操作,参考 narayana 日志。

XID 为空原因

为什么 xid 会为空。
这个 xid 为空的报错是在 com.arjuna.ats.jta.xa.XidImple#toString 方法中报的,实际上是 com.arjuna.ats.jta.xa.XidImple#_theXid 为空导致。
在 XidImple 所有构造方法中打断点,看创建 xid 过程,哪里导致 _theXid 属性为空。

public XidImple(Uid id, boolean branch, Integer eisName) {  try {  // 可以看到如果创建 _theXid 失败,则捕获了异常_theXid = XATxConverter.getXid(id, branch, eisName);  } catch (Exception e) {  _theXid = null;  jtaLogger.i18NLogger.warn_cant_create_xid_of_branch(id, branch, eisName, e);  // abort or throw exception?  }  hashCode = getHash(_theXid);  
}

后续 debug 看日常信息,发现 xid 为 null,异常信息里有 ARJUNA016111: The node identifier cannot be null 信息,这个明显是没有读取到 jbossts.xml 配置文件导致的报错。

后续通过修改 Transaction Rule, 尝试刷新配置,发现错误依然存在。Debug 发现没有读取到 jbossts.xml 配置文件导致。

使用 arthas 查看应用里 ShardingSphere-JDBC 的 TransactionRule 属性正常,说明 Rule 正常刷新。
但是 arthas 查看 ObjectStoreEnvironmentBean 里的 jdbc 属性为空,说明没有读取到 jbossts.xml 配置文件。

sc -d *TransactionRule
vmtool --action getInstances -c 368239c8 --className org.apache.shardingsphere.transaction.rule.TransactionRule --limit 10 -x 2sc -d *ObjectStoreEnvironmentBean
vmtool --action getInstances -c 368239c8 --className com.arjuna.ats.arjuna.common.ObjectStoreEnvironmentBean --limit 10 -x 2

然后 Debug Narayana 启动逻辑,发现应用目录下并没有 jbossts.xml 配置文件。咨询用户发现应用系统每次部署启动阶段会清除目录下的所有文件,导致读取失败。

问题解决

用于该应用在启动阶段会清理目录下的配置文件,将 jbossts.xml 放到其他 Narayana 可以读取到的目录下即可。

参考

https://u01f1kqxrl.feishu.cn/wiki/YD11wifTiit5RgkmRINcDTxAnmJ

这篇关于ShardingSphere Narayana XA 事务不回滚问题定位的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/761318

相关文章

mybatis和mybatis-plus设置值为null不起作用问题及解决

《mybatis和mybatis-plus设置值为null不起作用问题及解决》Mybatis-Plus的FieldStrategy主要用于控制新增、更新和查询时对空值的处理策略,通过配置不同的策略类型... 目录MyBATis-plusFieldStrategy作用FieldStrategy类型每种策略的作

linux下多个硬盘划分到同一挂载点问题

《linux下多个硬盘划分到同一挂载点问题》在Linux系统中,将多个硬盘划分到同一挂载点需要通过逻辑卷管理(LVM)来实现,首先,需要将物理存储设备(如硬盘分区)创建为物理卷,然后,将这些物理卷组成... 目录linux下多个硬盘划分到同一挂载点需要明确的几个概念硬盘插上默认的是非lvm总结Linux下多

Python Jupyter Notebook导包报错问题及解决

《PythonJupyterNotebook导包报错问题及解决》在conda环境中安装包后,JupyterNotebook导入时出现ImportError,可能是由于包版本不对应或版本太高,解决方... 目录问题解决方法重新安装Jupyter NoteBook 更改Kernel总结问题在conda上安装了

pip install jupyterlab失败的原因问题及探索

《pipinstalljupyterlab失败的原因问题及探索》在学习Yolo模型时,尝试安装JupyterLab但遇到错误,错误提示缺少Rust和Cargo编译环境,因为pywinpty包需要它... 目录背景问题解决方案总结背景最近在学习Yolo模型,然后其中要下载jupyter(有点LSVmu像一个

解决jupyterLab打开后出现Config option `template_path`not recognized by `ExporterCollapsibleHeadings`问题

《解决jupyterLab打开后出现Configoption`template_path`notrecognizedby`ExporterCollapsibleHeadings`问题》在Ju... 目录jupyterLab打开后出现“templandroidate_path”相关问题这是 tensorflo

如何解决Pycharm编辑内容时有光标的问题

《如何解决Pycharm编辑内容时有光标的问题》文章介绍了如何在PyCharm中配置VimEmulator插件,包括检查插件是否已安装、下载插件以及安装IdeaVim插件的步骤... 目录Pycharm编辑内容时有光标1.如果Vim Emulator前面有对勾2.www.chinasem.cn如果tools工

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Java多线程父线程向子线程传值问题及解决

《Java多线程父线程向子线程传值问题及解决》文章总结了5种解决父子之间数据传递困扰的解决方案,包括ThreadLocal+TaskDecorator、UserUtils、CustomTaskDeco... 目录1 背景2 ThreadLocal+TaskDecorator3 RequestContextH

关于Spring @Bean 相同加载顺序不同结果不同的问题记录

《关于Spring@Bean相同加载顺序不同结果不同的问题记录》本文主要探讨了在Spring5.1.3.RELEASE版本下,当有两个全注解类定义相同类型的Bean时,由于加载顺序不同,最终生成的... 目录问题说明测试输出1测试输出2@Bean注解的BeanDefiChina编程nition加入时机总结问题说明

关于最长递增子序列问题概述

《关于最长递增子序列问题概述》本文详细介绍了最长递增子序列问题的定义及两种优化解法:贪心+二分查找和动态规划+状态压缩,贪心+二分查找时间复杂度为O(nlogn),通过维护一个有序的“尾巴”数组来高效... 一、最长递增子序列问题概述1. 问题定义给定一个整数序列,例如 nums = [10, 9, 2