DialoGPT遇到的相关问题及解决方案

2024-03-24 22:38

本文主要是介绍DialoGPT遇到的相关问题及解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇博客主要记录了参考DialoGPT官方说明复现所踩的一些坑,持续更新

目录

  • 一、创建anaconda环境LSP
    • 问题1
      • 直接conda env create -f LSP-linux.yml -n LSP导致安装的pytorch和cudatoolkit版本错误
    • 问题2
      • conda activate LSP 没有激活成功导致python版本不一致
  • 二、apex相关
    • 问题3
      • Cuda extensions are being compiled with a version of Cuda that does not...
    • 问题4
      • 报错 ImportError: Please install apex from https://www.github.com/nvidia/apex to use distributed and fp16 training.
    • 问题5
      • **ModuleNotFoundError: No module named 'fused_adam_cuda'**
    • 问题6
      • 提示This fp16_optimizer is designed to only work with apex.contrib.optimizers.*To update, use updated optimizers with AMP.
    • 问题7
      • 报错TypeError: __init__() got an unexpected keyword argument 'max_grad_norm'
    • 其他

一、创建anaconda环境LSP

和官网差不多描述差不多,先git clone项目,然后进入DialoGPT项目目录,按照要求创建anaconda环境LSP,之后激活LSP

git clone https://github.com/microsoft/DialoGPT.git
cd DialoGPT
conda env create -f LSP-linux.yml -n LSP
conda activate LSP

有两个地方会可能对后续造成影响:

问题1

直接conda env create -f LSP-linux.yml -n LSP导致安装的pytorch和cudatoolkit版本错误

他给的环境应该是作者根据自己的GPU版本来下载的相应pytorch、cudatoolkit、nvcc等,可能和我们本地的版本是不一致的,在使用apex时可能会出问题,

所以可以先卸载pytorch,卸载的时候可以pip uninstall pytorch或者conda uninstall pytorch都试试,一般是其中一个可以

然后根据自己机器的情况,参考https://zhuanlan.zhihu.com/p/80386137
找到对应版本,在https://pytorch.org/找到对应命令下载(这里关于如何使用镜像等就不详写了,很多教程)


问题2

conda activate LSP 没有激活成功导致python版本不一致

第一次创建成功后应该使用
conda source activate LSP来激活而不是直接conda activate LSP,否则可能会导致LSP里的python版本为3.6.9,但是实际的python --version得到的还是本地的python版本

激活前还可以使用conda deactivate来退出之前的conda环境


二、apex相关

问题3

Cuda extensions are being compiled with a version of Cuda that does not…

主要参考https://zhuanlan.zhihu.com/p/80386137

前面也提到了,多半是版本不匹配问题


问题4

报错 ImportError: Please install apex from https://www.github.com/nvidia/apex to use distributed and fp16 training.

Traceback (most recent call last):File "LSP_train.py", line 223, in <module>"Please install apex from https://www.github.com/nvidia/apex "
ImportError: Please install apex from https://www.github.com/nvidia/apex to use distributed and fp16 training.

定位到LSP_train.py文件中,主要是这一段
在这里插入图片描述

try:from apex.optimizers import FP16_Optimizerfrom apex.optimizers import FusedAdam
except ImportError:raise ImportError("Please install apex from https://www.github.com/nvidia/apex ""to use distributed and fp16 training.")

主要是在from apex.optimizers import FP16_Optimizer这里
报错:ImportError:"Please install apex from https://www.github.com/nvidia/apex " “to use distributed and fp16 training.”

原因是:最新版的apex中,FP16_Optimizer已经被移到contrib/optimizers下面了
参考linux安装apex时的一些问题

因此,把219,220行由

from apex.optimizers import FP16_Optimizer
from apex.optimizers import FusedAdam

修改为:

from apex.fp16_utils import FP16_Optimizer
from apex.optimizers import FusedAdam

注1:

如果把 from apex.optimizers import FusedAdam也同样改成from apex.contrib.optimizers import FusedAdam的话会报新的错:

问题5

ModuleNotFoundError: No module named 'fused_adam_cuda’

参考https://github.com/NVIDIA/apex/issues/633

ModuleNotFoundError: No module named 'fused_adam_cuda'

所以这一行还是保持原状, from apex.optimizers import FusedAdam

注2:
有的教程比如NVIDIA apex安装,是把from apex.optimizers import FP16_Optimizer改为from apex.contrib.optimizers import FP16_Optimizer
亲测可以暂时解决现在报的错,但是后面还是会出现问题6

问题6

提示This fp16_optimizer is designed to only work with apex.contrib.optimizers.*To update, use updated optimizers with AMP.

参见apex readme
FP16_Optimize已经被弃用,import的时候得用from apex.fp16_utils import FP16_Optimizer,而不是from apex.contrib.optimizers import FP16_Optimizer或者from apex.contrib.optimizers import FP16_Optimizer

最后log如下信息就表示FP16_Optimizer和FusedAdam可以正常使用
在这里插入图片描述


问题7

报错TypeError: init() got an unexpected keyword argument ‘max_grad_norm’

Traceback (most recent call last):File "LSP_train.py", line 229, in <module>max_grad_norm=1.0)
TypeError: __init__() got an unexpected keyword argument 'max_grad_norm'

定位到原文在这一段
在这里插入图片描述

参考链接apex readme quick-start
可能是因为apex省略了apex.normalization.FusedLayerNorm,max_grad_norm是一个多余的参数,所以删除,max_grad_norm=1.0试试(后面几处用到了max_grad_norm的也删除)


其他

1、训练时间很长,可能会提示network error:software caused connectiopn abort
在这里插入图片描述
参考解决ssh 连接报错 network error software caused connection abort 自动中断,可能是由于软件原因导致长时间未操作时会自动中断,按照教程设置就好。

2、训练完会有警告

Warning:  FP16_Optimizer is deprecated and dangerous, and will be deleted soon.  If it still works, you're probably getting lucky.  For mixed precision, use the documented API https://nvidia.github.io/apex/amp.html, with opt_level=O1.

大意是说FP16_Optimizer 已弃用且危险,即将被删除。 运气好的话还有效。 对于混合精度,请使用已记录的 API https://nvidia.github.io/apex/amp.html,并带有 opt_level=O1。

所以感觉虽然前面修修补补的也解决了一部分因为DialoGPT太老而产生了一些问题,但是治标不治本,应该还是会试着更新一下代码,用更新后的优化器

3、训练时长

在1块16GB内存的Tesla V100上用原本的reddiet微调,medium版模型大概两个小时跑完

样例设置的一些参数如下:

06/27/2021 11:30:11 - INFO - __main__ -   train batch size = 512, new train batch size (after gradient accumulation) = 64
06/27/2021 11:30:11 - INFO - __main__ -   CUDA available? True
06/27/2021 11:30:11 - INFO - __main__ -   Input Argument Information
06/27/2021 11:30:11 - INFO - __main__ -   model_name_or_path            /data/wd/DialoGPT/models/medium
06/27/2021 11:30:11 - INFO - __main__ -   seed                          42
06/27/2021 11:30:11 - INFO - __main__ -   max_seq_length                128
06/27/2021 11:30:11 - INFO - __main__ -   skip_eval                     False
06/27/2021 11:30:11 - INFO - __main__ -   init_checkpoint               /data/wd/DialoGPT/models/medium/pytorch_model.bin
06/27/2021 11:30:11 - INFO - __main__ -   train_input_file              /data/wd/DialoGPT/data/train.128len.db
06/27/2021 11:30:11 - INFO - __main__ -   eval_input_file               ./data/dummy_data.tsv
06/27/2021 11:30:11 - INFO - __main__ -   continue_from                 0
06/27/2021 11:30:11 - INFO - __main__ -   train_batch_size              64
06/27/2021 11:30:11 - INFO - __main__ -   gradient_accumulation_steps   8
06/27/2021 11:30:11 - INFO - __main__ -   eval_batch_size               64
06/27/2021 11:30:11 - INFO - __main__ -   learning_rate                 1e-05
06/27/2021 11:30:11 - INFO - __main__ -   num_optim_steps               10000
06/27/2021 11:30:11 - INFO - __main__ -   valid_step                    5000
06/27/2021 11:30:11 - INFO - __main__ -   warmup_proportion             0.1
06/27/2021 11:30:11 - INFO - __main__ -   warmup_steps                  4000
06/27/2021 11:30:11 - INFO - __main__ -   normalize_data                True
06/27/2021 11:30:11 - INFO - __main__ -   fp16                          True
06/27/2021 11:30:11 - INFO - __main__ -   lr_schedule                   noam
06/27/2021 11:30:11 - INFO - __main__ -   loss_scale                    0.0
06/27/2021 11:30:11 - INFO - __main__ -   no_token_id                   True
06/27/2021 11:30:11 - INFO - __main__ -   output_dir                    /data/wd/DialoGPT/models/output_model
06/27/2021 11:30:11 - INFO - __main__ -   log_dir                       None
06/27/2021 11:30:11 - INFO - __main__ -   pbar                          True
06/27/2021 11:30:11 - INFO - __main__ -   local_rank                    -1
06/27/2021 11:30:11 - INFO - __main__ -   config                        None
06/27/2021 11:30:11 - INFO - __main__ -   device                        cuda
06/27/2021 11:30:11 - INFO - __main__ -   n_gpu                         1
06/27/2021 11:30:11 - INFO - pytorch_pretrained_bert.tokenization_gpt2 -   loading vocabulary file /data/wd/DialoGPT/models/medium/vocab.json
06/27/2021 11:30:11 - INFO - pytorch_pretrained_bert.tokenization_gpt2 -   loading merges file /data/wd/DialoGPT/models/medium/merges.txt
06/27/2021 11:30:16 - INFO - gpt2_training.train_utils -   loading finetuned model from /data/wd/DialoGPT/models/medium/pytorch_model.bin
06/27/2021 11:30:17 - INFO - gpt2_training.train_utils -   loading transfomer only
06/27/2021 11:30:17 - INFO - gpt2_training.train_utils -   in fp16, model.half() activated
06/27/2021 11:30:20 - INFO - __main__ -   Number of parameter = 354823168
06/27/2021 11:30:20 - INFO - __main__ -   in fp16, using FusedAdam

这篇关于DialoGPT遇到的相关问题及解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/843013

相关文章

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo

题目1254:N皇后问题

题目1254:N皇后问题 时间限制:1 秒 内存限制:128 兆 特殊判题:否 题目描述: N皇后问题,即在N*N的方格棋盘内放置了N个皇后,使得它们不相互攻击(即任意2个皇后不允许处在同一排,同一列,也不允许处在同一斜线上。因为皇后可以直走,横走和斜走如下图)。 你的任务是,对于给定的N,求出有多少种合法的放置方法。输出N皇后问题所有不同的摆放情况个数。 输入

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位:为1时表示在内存期间被访问过,为0时表示未被访问;修改位:为1时表示该页面自从被装入内存后被修改过,为0时表示未修改过。 置换页面时,最先置换访问位和修改位为00的,其次是01(没被访问但被修改过)的,之后是10(被访问了但没被修改过),最后是11。 2.内聚的类型 功能内聚:完成一个单一功能,各个部分协同工作,缺一不可。 顺序内聚: