ChatGLM3 自己训练微调制作数据代码,与训练、训练完成后模型合并、解译代码完整版

本文主要是介绍ChatGLM3 自己训练微调制作数据代码,与训练、训练完成后模型合并、解译代码完整版,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ChatGLM3 自己训练微调制作数据代码,与训练完成后模型合并解译代码

import jsonkeyword = '这年轻人'# 摘自百度百科
description = "这年轻人,男,1993年出生于陕西省湖北市潼关县。2015年毕业于中国背景大学。2016年加入西安旧东方,当选(旧东方)当时最年轻的英语教研主管;2019年加入旧东方在线,是高三英语名师并成为高三英语学科最年轻的负责人,被称为“中关村王杰伦”。现是东方甄选高级合伙人、旧东方教育科技集团董事长文化助理,兼任新东方文旅集团副总裁。"#对 prompt 使用一些简单的数据增强的方法,以便更好地收敛。
def get_prompt_list(keyword):return [f'{keyword}', f'你知道{keyword}吗?',f'{keyword}是谁?',f'介绍一下{keyword}',f'你听过{keyword}吗?',f'谁是{keyword}?',f'{keyword}是?',f'你认识{keyword}吗?',f'{keyword}的资料',f'{keyword}简介']# ChatGLM3 自己训练微调制作数据代码,与训练完成后模型合并解译代码# 对话数据格式
data = [{"conversations": [{"role": "system","content": "You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's instructions carefully. Respond using markdown."},{"role": "user","content": x},{"role": "assistant","content": description}]}for x in get_prompt_list(keyword)
]# 保存到 formatted_data/my_data_qa.jsonl
with open("formatted_data/my_data_qa.jsonl", "w") as f:for e in data:f.write(json.dumps(e, ensure_ascii=False) + "\n")

模型合并代码

import torch
from peft import PeftModel
from transformers import AutoTokenizer, AutoModel
#加载原模型
base_model = '/media/DATA/XXX/large_model/weights'
base_model = AutoModel.from_pretrained(base_model, trust_remote_code=True).cuda(3)
#加载微调的模型
lora_model_path = '/media/DATA/XXX/large_model/Chat_weitiao/ChatGLM3/finetune_demo/output/checkpoint-3000'
lora_model = PeftModel.from_pretrained(base_model,lora_model_path, torch_dtype=torch.float16)
lora_model.to("cpu")
#合并
merged_model = lora_model.merge_and_unload()
#合并的模型存储
new_model_directory = '/media/DATA/XXX/large_model/Chat_weitiao/ChatGLM3/finetune_demo/output/fintrue_chatglm3'
merged_model.save_pretrained(new_model_directory, max_shard_size="2048MB", safe_serialization=True)

后推理代码

from transformers import AutoModel, AutoTokenizer  # 导入transformers库的AutoModel和AutoTokenizer#加载模型
new_model_directory = '/media/DATA/XXX/large_model/Chat_weitiao/ChatGLM3/finetune_demo/output/fintrue_chatglm3'
tokenizer = AutoTokenizer.from_pretrained(new_model_directory, trust_remote_code=True)
model = AutoModel.from_pretrained(new_model_directory, trust_remote_code=True).cuda(3)
model.eval()
#输入
#instruction = "你现在是一个信息抽取模型,请你帮我抽取出关系内容为\"性能故障\", \"部件故障\", \"组成\"和 \"检测工具\"的相关三元组,三元组内部用\"_\"连接,三元组之间用\\n分割。文本:"
input = "被称为“中关村周杰伦"
#验证
response, _ = model.chat(tokenizer, input, history=None)
print(response)

第二种

#!/usr/bin/env python
# -*- coding: utf-8 -*-from pathlib import Path
from typing import Annotated, Unionimport typer
from peft import AutoPeftModelForCausalLM, PeftModelForCausalLM
from transformers import (AutoModelForCausalLM,AutoTokenizer,PreTrainedModel,PreTrainedTokenizer,PreTrainedTokenizerFast,
)ModelType = Union[PreTrainedModel, PeftModelForCausalLM]
TokenizerType = Union[PreTrainedTokenizer, PreTrainedTokenizerFast]app = typer.Typer(pretty_exceptions_show_locals=False)def _resolve_path(path: Union[str, Path]) -> Path:return Path(path).expanduser().resolve()def load_model_and_tokenizer(model_dir: Union[str, Path]) -> tuple[ModelType, TokenizerType]:model_dir = _resolve_path(model_dir)if (model_dir / 'adapter_config.json').exists():model = AutoPeftModelForCausalLM.from_pretrained(model_dir, trust_remote_code=True, device_map='auto')tokenizer_dir = model.peft_config['default'].base_model_name_or_pathelse:model = AutoModelForCausalLM.from_pretrained(model_dir, trust_remote_code=True, device_map='auto')tokenizer_dir = model_dirtokenizer = AutoTokenizer.from_pretrained(tokenizer_dir, trust_remote_code=True)return model, tokenizer@app.command()
def main(model_dir: Annotated[str, typer.Argument(help='')],prompt: Annotated[str, typer.Option(help='')],
):model, tokenizer = load_model_and_tokenizer(model_dir)response, _ = model.chat(tokenizer, prompt)print(response)if __name__ == '__main__':app()

训练解译指令

CUDA_VISIBLE_DEVICES=3  python finetune_hf.py formatted_data/ /media/DATA/zhulifu/large_model/weights/ configs/lora.yaml
CUDA_VISIBLE_DEVICES=2  python finetune_hf.py formatted_data/ /media/DATA/zhulifu/large_model/weights/ configs/ptuning_v2.yaml

训练代码

# -*- coding: utf-8 -*-import dataclasses as dc
import functools
from collections.abc import Callable, Mapping, Sequence
from pathlib import Path
from typing import Annotated, Any, Optional, Unionimport jieba
import numpy as np
import ruamel.yaml as yaml
import torch
import typer
from datasets import Dataset, DatasetDict, NamedSplit, Split, load_dataset
from nltk.translate.bleu_score import SmoothingFunction, sentence_bleu
from peft import (PeftConfig,PeftModelForCausalLM,get_peft_config,get_peft_model
)
from rouge_chinese import Rouge
from torch import nn
from transformers import (AutoModelForCausalLM,AutoTokenizer,EvalPrediction,GenerationConfig,PreTrainedModel,PreTrainedTokenizer,PreTrainedTokenizerFast,Seq2SeqTrainingArguments

这篇关于ChatGLM3 自己训练微调制作数据代码,与训练、训练完成后模型合并、解译代码完整版的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/802330

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

用js控制视频播放进度基本示例代码

《用js控制视频播放进度基本示例代码》写前端的时候,很多的时候是需要支持要网页视频播放的功能,下面这篇文章主要给大家介绍了关于用js控制视频播放进度的相关资料,文中通过代码介绍的非常详细,需要的朋友可... 目录前言html部分:JavaScript部分:注意:总结前言在javascript中控制视频播放

Spring Boot 3.4.3 基于 Spring WebFlux 实现 SSE 功能(代码示例)

《SpringBoot3.4.3基于SpringWebFlux实现SSE功能(代码示例)》SpringBoot3.4.3结合SpringWebFlux实现SSE功能,为实时数据推送提供... 目录1. SSE 简介1.1 什么是 SSE?1.2 SSE 的优点1.3 适用场景2. Spring WebFlu

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

java之Objects.nonNull用法代码解读

《java之Objects.nonNull用法代码解读》:本文主要介绍java之Objects.nonNull用法代码,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录Java之Objects.nonwww.chinasem.cnNull用法代码Objects.nonN

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.