如何定位报错: indexSelectLargeIndex:... Assertion `srcIndex ＜ srcSelectDimSize` fail

2024-06-19 06:44

文章标签 报错定位 fail assertion srcindex srcselectdimsize indexselectlargeindex

本文主要是介绍如何定位报错: indexSelectLargeIndex:... Assertion `srcIndex ＜ srcSelectDimSize` fail，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

1. 背景
2. 准备工作
- 2.1 debug工具
- 2.2 设置准备工作
3. 开启 debug

1. 背景

在使用 cuda 在 gpu 计算的过程中，出现索引超过最大长度。

indexSelectLargeIndex:... Assertion `srcIndex < srcSelectDimSize` fail

通常这种时候堆栈底部还伴随以下报错：

RuntimeError: CUDA error: device-side assert triggered

如果你明确你的输入是什么，那么这种问题不难排查。

困难的是，如果你调用了一些封装很深的库，例如模型训练库，比如 transformer 。特别是你还是用多 gpu 跑这种代码，那么这种问题排查起来尤其困难。

ps：
对于这种隐藏太深的问题，在网上（包含外网）几乎搜索不到太多的解决方法。

2. 准备工作

目前遇到这种问题，最好的解决方法只有对代码 debug。千万别害怕 debug，这是当你遇到疑难杂症时，理解代码、解决问题的最佳方法！

2.1 debug工具

当然 debug 也有方法的，掌握合适的工具事半功倍：
（1）本地代码可以用 IDE 编码的，那么直接用 IDE 的 debug 方便
（2）远程部署在服务器上的，如果本地可以通过内网 ssh 连接服务器，建议部署用 VSCode，远程连接进行 debug
（3）远程部署在服务器上的，本地没有任何办法连接服务器的，那么可以借助 python 的 pdb 库。详细用法请参考《Python内置debug库: pdb用法详解》
（4）当然，肯定有其他方法，更多的方法我就没用过了～

2.2 设置准备工作

为了可以高效的 debug，需要简单配置以下设置：
（1）将 gpu 运算替换成 cpu 运算
（2）将多线程改成单线程
（3）如果是深度学习模型训练，请调低模型参数、减少训练的数据量

下面依次解释以上操作：
（1）将 gpu 运算替换成 cpu 运算；

model.to(torch.device("cpu"))
如果你使用 transformer 库，在 TrainingArguments 中 use_cpu = True

（2）将多线程改成单线程；例如此前你使用多机多卡训练，请调整成一张卡

（3）调低模型参数、减少训练的数据量；

现在的大模型的参数量巨大，可能导入会爆内存，请调低模型的参数，例如 attention 的head数、网络隐藏层数、embedding维度、max_seq_length 等
另外，为了提高效率，训练 load 的数据可以少一些，加速 debug 效率

3. 开启 debug

由于我们并不知道是哪里的问题引起的索引超过最大长度，因此我们需要从头开始 debug，那么是不是一步一步来 debug 呢？

这里有一个加速的方法，我们采用二分法。
（1）在大致代码1/2的位置打上断点，然后放行代码，看代码是否可以运行到这个断点。
（2）如果可以，那么在后半部分的1/2再打断点，再运行；
（3）否则在前半部分的1/2再打断点。
（4）直到可以定位到是哪一行函数报错，再追踪进去重复上面的步骤

举个例子：
这是transformer的内置的train 的内部代码，明确是这里出现了问题，现在就需要找到是哪一行有问题。我们可以找一个大致的位置打上断点，然后放行 debug 代码
在这里插入图片描述
找到报错的一行代码以后，再具体根据里面的变量之间的关系具体分析。

欢迎关注本人，我是喜欢搞事的程序猿；一起进步，一起学习；

欢迎关注知乎/CSDN：SmallerFL

也欢迎关注我的wx公众号（精选高质量文章）：一个比特定乾坤
在这里插入图片描述

这篇关于如何定位报错: indexSelectLargeIndex:... Assertion `srcIndex ＜ srcSelectDimSize` fail的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1074291。 23002807@qq.com

相关文章

$idea突然报错Malformed \uxxxx encoding问题及解决$

idea突然报错Malformed \uxxxx encoding问题及解决

《idea突然报错Malformeduxxxxencoding问题及解决》Maven项目在切换Git分支时报错,提示project元素为描述符根元素,解决方法：删除Maven仓库中的resolv... 目www.chinasem.cn录问题解决方式总结问题idea 上的 maven China编程项目突然报错，是

阅读更多...

linux查找java项目日志查找报错信息方式

linux查找java项目日志查找报错信息方式

《linux查找java项目日志查找报错信息方式》日志查找定位步骤：进入项目,用tail-f实时跟踪日志,tail-n1000查看末尾1000行,grep搜索关键词或时间,vim内精准查找并高亮定位,... 目录日志查找定位在当前文件里找到报错消息总结日志查找定位1.cd 进入项目2.正常日志和错误日

阅读更多...

线上Java OOM问题定位与解决方案超详细解析

线上Java OOM问题定位与解决方案超详细解析

《线上JavaOOM问题定位与解决方案超详细解析》OOM是JVM抛出的错误,表示内存分配失败,：本文主要介绍线上JavaOOM问题定位与解决方案的相关资料,文中通过代码介绍的非常详细,需要的朋... 目录一、OOM问题核心认知1.1 OOM定义与技术定位1.2 OOM常见类型及技术特征二、OOM问题定位工具

阅读更多...

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

解决升级JDK报错:module java.base does not“opens java.lang.reflect“to unnamed module问题

《解决升级JDK报错:modulejava.basedoesnot“opensjava.lang.reflect“tounnamedmodule问题》SpringBoot启动错误源于Jav... 目录问题描述原因分析解决方案总结问题描述启动sprintboot时报以下错误原因分析编程异js常是由Ja

阅读更多...

解决Nginx启动报错Job for nginx.service failed because the control process exited with error code问题

解决Nginx启动报错Job for nginx.service failed because the control process exited with error code问题

《解决Nginx启动报错Jobfornginx.servicefailedbecausethecontrolprocessexitedwitherrorcode问题》Nginx启... 目录一、报错如下二、解决原因三、解决方式总结一、报错如下Job for nginx.service failed bec

阅读更多...

Java报错:org.springframework.beans.factory.BeanCreationException的五种解决方法

Java报错:org.springframework.beans.factory.BeanCreationException的五种解决方法

《Java报错:org.springframework.beans.factory.BeanCreationException的五种解决方法》本文解析Spring框架中BeanCreationExce... 目录引言一、问题描述1.1 报错示例假设我们有一个简单的Java类，代表一个用户信息的实体类：然后，

阅读更多...

解决若依微服务框架启动报错的问题

解决若依微服务框架启动报错的问题

《解决若依微服务框架启动报错的问题》Invalidboundstatement错误通常由MyBatis映射文件未正确加载或Nacos配置未读取导致,需检查XML的namespace与方法ID是否匹配,... 目录ruoyi-system模块报错报错详情nacos文件目录总结ruoyi-systnGLNYpe

阅读更多...

kkFileView启动报错:报错2003端口占用的问题及解决

kkFileView启动报错:报错2003端口占用的问题及解决

《kkFileView启动报错:报错2003端口占用的问题及解决》kkFileView启动报错因office组件2003端口未关闭,解决：查杀占用端口的进程,终止Java进程,使用shutdown.s... 目录原因解决总结kkFileViewjavascript启动报错启动office组件失败，请检查of

阅读更多...

解决1093 - You can‘t specify target table报错问题及原因分析

解决1093 - You can‘t specify target table报错问题及原因分析

《解决1093-Youcan‘tspecifytargettable报错问题及原因分析》MySQL1093错误因UPDATE/DELETE语句的FROM子句直接引用目标表或嵌套子查询导致,... 目录报js错原因分析具体原因解决办法方法一：使用临时表方法二：使用JOIN方法三：使用EXISTS示例总结报错原

阅读更多...

怎样通过分析GC日志来定位Java进程的内存问题

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》：本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

阅读更多...