百川2大模型微调问题解决

2023-12-24 23:52

本文主要是介绍百川2大模型微调问题解决,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

    之前用https://github.com/FlagAlpha/Llama2-Chinese微调过几个模型,总体来说llama2的生态还是比较好的,过程很顺利。微调百川2就没那么顺利了,所以简单做个记录

    1. 数据准备,我的数据是单轮对话,之前微调llama2已经按照sft格式做好txt文件,翻看https://github.com/baichuan-inc/Baichuan2发现用的是json,和我所用数据格式有所出入,训练我还是用一开始用llama2的finetune脚本和参数,按照baichuan2的数据格式调整了代码。不过最后为了兼容llama2,我就把llama2的数据格式和tokenize_function给用在了百川2上,看起来也没啥问题。

    2. 模型选取,用baichuan2-13b-chat作为预训练权重,推理的时候总是头部输出我要的内容,但是输出总是无法停止,就算训完一个epoch也是这样,很怪异,研究半天,不知道所以然,干脆放弃,采用不带chat的baichuan2-13b作为预训练权重,这次很快出结果,只要iter 100次保存下来的模型,输出也是我想要的内容,所以就不换了,暂时用baichuan2-13b。主要是llama2已经跑的很好,我实验也就不求甚解,将就先用baichuan2-13b。在这个过程中"--lora_r 1 --lora_alpha 32 --lora_dropout 0.1"这几个参数,我按照baichuan2仓库里设置了。

    3. 给百川模型的加载统统加上trust_remote_code,不然总是提示你y/N选择,孙悟空都会是烦死了。

    4. 训练模型遇到的错误1: 

AttributeError: 'BaichuanTokenizer' object has no attribute 'sp_model'

        这个错误通过简单回滚transfomers解决python3 -m pip install transformers==4.33.2,另外还有一个错误忘了具体是啥,通过回滚bitsandbytes解决python3 -m pip install bitsandbytes==0.41.0,幸运的是llama2在这两个模块版本下,同样工作。上面的错误,其实也有人说挪下tokenization_baichuan.py里的super的位置,我改了几处这个文件,似乎不起作用,随即放弃这个方案。

    5. ​推理过程遇到的错误2,这个错误也是折腾了我好一会,通过给AutoModelForCausalLM.from_pretrained加上pretraining_tp=1参数解决,先跑通,原理没去深究了。

RuntimeError: mat1 and mat2 shapes cannot be multiplied (1x20 and 9x5120)

     6. 训练还遇到一个内存不足的问题3,google了两把,按照提示加了个环境变量PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:1536,果然就好了,谷歌不欺我也。内存不是真不足,而是碎片化严重,调整max_split_size_mb比降低batch size总是好的。

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 1.20 GiB (GPU 0; 23.69 GiB total capacity; 20.29 GiB already allocated; 579.94 MiB free; 22.56 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

    7. llama2微调的参数module是q_proj,k_proj,v_proj,o_proj,down_proj,gate_proj,up_proj这些,百川2很奇怪,有个自己的W_pack,把全连接打印了一下,其实还有down_proj,o_proj,up_proj,gate_proj,微调这几个部分,效果也差不多,微调哪些更好哪些更差,暂时就不去比较了,遇到问题,也许可以调整一下。 

这篇关于百川2大模型微调问题解决的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/533577

相关文章

Spring的RedisTemplate的json反序列泛型丢失问题解决

《Spring的RedisTemplate的json反序列泛型丢失问题解决》本文主要介绍了SpringRedisTemplate中使用JSON序列化时泛型信息丢失的问题及其提出三种解决方案,可以根据性... 目录背景解决方案方案一方案二方案三总结背景在使用RedisTemplate操作redis时我们针对

SpringBoot整合Dubbo+ZK注册失败的坑及解决

《SpringBoot整合Dubbo+ZK注册失败的坑及解决》使用Dubbo框架时,需在公共pom添加依赖,启动类加@EnableDubbo,实现类用@DubboService替代@Service,配... 目录1.先看下公共的pom(maven创建的pom工程)2.启动类上加@EnableDubbo3.实

Kotlin Map映射转换问题小结

《KotlinMap映射转换问题小结》文章介绍了Kotlin集合转换的多种方法,包括map(一对一转换)、mapIndexed(带索引)、mapNotNull(过滤null)、mapKeys/map... 目录Kotlin 集合转换:map、mapIndexed、mapNotNull、mapKeys、map

nginx中端口无权限的问题解决

《nginx中端口无权限的问题解决》当Nginx日志报错bind()to80failed(13:Permissiondenied)时,这通常是由于权限不足导致Nginx无法绑定到80端口,下面就来... 目录一、问题原因分析二、解决方案1. 以 root 权限运行 Nginx(不推荐)2. 为 Nginx

解决1093 - You can‘t specify target table报错问题及原因分析

《解决1093-Youcan‘tspecifytargettable报错问题及原因分析》MySQL1093错误因UPDATE/DELETE语句的FROM子句直接引用目标表或嵌套子查询导致,... 目录报js错原因分析具体原因解决办法方法一:使用临时表方法二:使用JOIN方法三:使用EXISTS示例总结报错原

Windows环境下解决Matplotlib中文字体显示问题的详细教程

《Windows环境下解决Matplotlib中文字体显示问题的详细教程》本文详细介绍了在Windows下解决Matplotlib中文显示问题的方法,包括安装字体、更新缓存、配置文件设置及编码調整,并... 目录引言问题分析解决方案详解1. 检查系统已安装字体2. 手动添加中文字体(以SimHei为例)步骤

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

nginx 负载均衡配置及如何解决重复登录问题

《nginx负载均衡配置及如何解决重复登录问题》文章详解Nginx源码安装与Docker部署,介绍四层/七层代理区别及负载均衡策略,通过ip_hash解决重复登录问题,对nginx负载均衡配置及如何... 目录一:源码安装:1.配置编译参数2.编译3.编译安装 二,四层代理和七层代理区别1.二者混合使用举例

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

SQL Server配置管理器无法打开的四种解决方法

《SQLServer配置管理器无法打开的四种解决方法》本文总结了SQLServer配置管理器无法打开的四种解决方法,文中通过图文示例介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录方法一:桌面图标进入方法二:运行窗口进入检查版本号对照表php方法三:查找文件路径方法四:检查 S