【deepspeed】 gpt模型训练报错run_clm_no_trainer.py: error: unrecognized arguments: --local-rank=0

2023-10-20 21:10

文章标签 训练模型报错 error py gpt run arguments rank unrecognized local deepspeed clm trainer

本文主要是介绍【deepspeed】 gpt模型训练报错run_clm_no_trainer.py: error: unrecognized arguments: --local-rank=0，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

测试场景：使用deepspeed框架训练gpt模型

问题：

报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

具体见截图：

解决办法：

含义：表明在运行 train.py 脚本时，传递了一个未被识别的参数 --local-rank=1

这里我在train.py脚本文件中果然没有找到–local-rank参数，在很多的parser.add_argument后添加一行parser.add_argument(“–local-rank”, type=int)，注意在最后添加而不是刚开始，如果刚开始添加会导致传入参数不匹配而报错。

添加的代码参考：

参考文章：

干些这位网友热心分享：unrecognized arguments: --local-rank=1报错解决_幸运的悦子的博客-CSDN博客

这篇关于【deepspeed】 gpt模型训练报错run_clm_no_trainer.py: error: unrecognized arguments: --local-rank=0的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/249736。 23002807@qq.com

相关文章

Java的IO模型、Netty原理解析

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容：标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO（blocking I/O）NI

阅读更多...

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言：第一步：第二步：第三步：总结：前言：当你想通过命令窗口想打开mysql时候发现提http://www.cpp

阅读更多...

SpringBoot启动报错的11个高频问题排查与解决终极指南

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突：NoSuchMethodError 的终极解法2. Bean注入失败：No qu

阅读更多...

springboot报错Invalid bound statement (not found)的解决

springboot报错Invalid bound statement (not found)的解决

《springboot报错Invalidboundstatement(notfound)的解决》本文主要介绍了springboot报错Invalidboundstatement(not... 目录一. 问题描述二.解决问题三. 添加配置项四.其他的解决方案4.1 Mapper 接口与 XML 文件不匹配

阅读更多...

基于Flask框架添加多个AI模型的API并进行交互

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》：本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

阅读更多...

一文教你Python引入其他文件夹下的.py文件

一文教你Python引入其他文件夹下的.py文件

《一文教你Python引入其他文件夹下的.py文件》这篇文章主要为大家详细介绍了如何在Python中引入其他文件夹里的.py文件,并探讨几种常见的实现方式,有需要的小伙伴可以根据需求进行选择... 目录1. 使用sys.path动态添加路径2. 使用相对导入（适用于包结构）3. 使用pythonPATH环境

阅读更多...

java常见报错及解决方案总结

java常见报错及解决方案总结

《java常见报错及解决方案总结》：本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案：2. 空指针异常 (NullPoi

阅读更多...

SpringBoot项目启动报错"找不到或无法加载主类"的解决方法

SpringBoot项目启动报错"找不到或无法加载主类"的解决方法

《SpringBoot项目启动报错找不到或无法加载主类的解决方法》在使用IntelliJIDEA开发基于SpringBoot框架的Java程序时,可能会出现找不到或无法加载主类com.example.... 目录一、问题描述二、排查过程三、解决方案一、问题描述在使用 IntelliJ IDEA 开发基于

阅读更多...

关于Docker Desktop的WSL报错问题解决办法

关于Docker Desktop的WSL报错问题解决办法

《关于DockerDesktop的WSL报错问题解决办法》：本文主要介绍关于DockerDesktop的WSL报错问题解决办法的相关资料,排查发现是因清理%temp%文件夹误删关键WSL文件,... 目录发现问题排查过程：解决方法其实很简单：重装之后再看就能够查到了：最后分享几个排查这类问题的小www.cp

阅读更多...

Pycharm安装报错:Cannot detect a launch configuration解决办法

Pycharm安装报错:Cannot detect a launch configuration解决办法

《Pycharm安装报错:Cannotdetectalaunchconfiguration解决办法》本文主要介绍了Pycharm安装报错:Cannotdetectalaunchconfigur... 本文主要介绍了Pycharm安装报错:Cannot detect a launch configuratio

阅读更多...