10.0大模型微调 bitfit

2024-08-30 17:20
文章标签 模型 微调 10.0 bitfit

本文主要是介绍10.0大模型微调 bitfit,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 介绍

        参数高效微调方法分类。主要基于三大类方法:基于additive、基于selective和基于reparametrization-based。在additive方法中,主要两大类:adapters方法和soft prompts。

1 基于additive方法

additive方法,顾名思义“增量式”,通常向预训练模型添加额外的小型网络层或模块,而不直接修改原有模型的权重。这种方法能够实现在保留预训练模型通用性能的同时,针对特定任务进行优化。下面是几种常见的additive微调方法:

1. 适配器模块(Adapter Modules) - 适配器是一种轻量级的神经网络层,嵌入到预训练模型的各个层之间或之内。这些适配器只有少量的参数需要训练,而模型的其他参数保持固定。适配器通常包括一些简单的前馈神经网络层,例如,一个下降维度的线性层,一个激活函数,以及一个恢复原始维度的线性层。适配器可以非常有效地针对特定任务调整模型的行为,而不需要重新训练整个模型。

2. 提示调整 (Prompt-Tuning) - 虽然提示调整不涉及到添加新的网络层,但它可以被视为一种additive策略,因为它通过添加或修改输入序列的一部分(即提示)来影响模型的输出。这种方法利用了预训练模型的灵活性,通过最优化一组固定的词(prompt tokens),以达到微调模型的目的。

3. 前缀调整 (Prefix-Tuning) - 类似于提示调整,前缀调整在模型处理每个输入之前添加一系列可训练的向量(称为前缀)。这些前缀在模型的解码器或注意力机制中作为额外的上下文使用,从而引导模型生成特定于任务的响应。

2 基于selective方法

        selective方法,顾名思义“选择式”,涉及选择性地调整或优化模型的部分参数,而不是对整个模型的所有参数进行微调。这种方法旨在在维持大部分预训练参数不变的情况下,仅对影响最大的部分进行优化。

        BitFit(BIas-Term FIne-Tuning)的方法实质上是冻结了大部分transformer-encoder参数,只训练bais和特定任务的classification layer。该方法是参数高效的:每个新任务只需要存储bais参数向量(占参数总数的 0.1% 以下)和特定任务的classification layer。
具体来说:BERT 编码器由 L 层组成,其中每层 l 以 M 个自注意力头开始,其中自注意力头 (m, l) 具有key、quary和value 编码器,每个编码器都采用线性层的形式:

2  使用

数据魔搭社区
模型

魔搭社区

1 注意数据集合中有None需要进行剔除;

import pandas as pd
train_df = train_df[~train_df['sentence'].isna()]
train_df[~train_df['label'].isna()].reset_index(drop=True).to_csv('../sentment_data/train_del.csv')
train_df[train_df['label'].isna()].reset_index(drop=True).to_csv('../sentment_data/test_del.csv')

2 计算该模型大小:sum([para.numel() for para in  model.parameters()]) / 10000000000

0.0102269186B(十亿) * 4 Byter = 0.04G ,占用内存不大;
整个模型训练 =  模型内存 + 梯度内存 +  优化器内存 = 0.04G * 4 = 0.16GB

3 准备评估指标:https://huggingface.co/spaces/evaluate-metric/f1/tree/main

# pip install evaluate

  1. 数据部分,数据存在None,需要过滤掉;
  2. transformers版本问题; transformers 版本太低了!
  3. 损失函数, 比如这里的二分类,模型输出的是两个值[batch,2],但是input labels是 【batch,1】不匹配导致计算损失函数有问题。
  4. 模型输入nan, 模型计算的时候我反复调试,但是没有重新加载,导致模型效果越来越差了;

2.1 全调参数

from datasets import Dataset,load_dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
import torch
import evaluate
import numpy as np# 检测显卡
"cuda" if torch.cuda.is_available() else "cpu"#from datasets import load_metric
# 定义评估指标
metric = evaluate.load("./f1.py")
# 定义计算指标的函数
def compute_metrics(eval_pred):predictions, labels = eval_pred#labels = labels.flatten()predictions = np.argmax(predictions, axis=1)f1 = metric.compute(predictions=predictions, references=labels, average="macro")accuracy = (predictions == labels).mean()return {"accuracy": accuracy, "f1": f1["f1"]}import pandas as pd
train_df = pd.read_csv('../sentment_data/train.csv')
train_df = train_df[~train_df['sentence'].isna()]
train_df[~train_df['label'].isna()].reset_index(drop=True).to_csv('../sentment_data/train_del.csv',index=False)
train_df[train_df['label'].isna()].reset_index(drop=True).to_csv('../sentment_data/test_del.csv',index=False)tra_dataset = load_dataset('csv',data_files='../sentment_data/train_del.csv')
val_dataset = load_dataset('csv',data_files='../sentment_data/dev.csv')
test_dataset = load_dataset('csv',data_files='../sentment_data/test_del.csv')tra_dataset = tra_dataset.filter(lambda x: x["label"] is not  None)
tra_dataset = tra_dataset.filter(lambda x: x["sentence"] is not  None)tokenizer = AutoTokenizer.from_pretrained('../mengzi-bert-base/')# 自定义模型的输出类别个数
#model.classifier.out_features = 3def process_function(examples):tokenized_examples = tokenizer(examples["sentence"], max_length=32, truncation=True,padding="max_length")#print(examples['label'])tokenized_examples["labels"] = examples['label']#[int(i) for i in examples['label']]return tokenized_examplestokenized_datasets = tra_dataset.map(process_function, batched=True, remove_columns=tra_dataset["train"].column_names)valid_datasets = val_dataset.map(process_function, batched=True, remove_columns=val_dataset["train"].column_names)tokenized_datasets['validation'] = valid_datasets['train']# 
from transformers import DataCollatorWithPadding
model = AutoModelForSequenceClassification.from_pretrained("../mengzi-bert-base/",num_labels=2)args = TrainingArguments(output_dir="./checkpoints",      # 输出文件夹per_device_train_batch_size=32,   # 训练时的batch_sizegradient_accumulation_steps=32,  # *** 梯度累加 ***gradient_checkpointing=True,     # *** 梯度检查点 ***optim="adafactor",               # *** adafactor优化器 *** per_device_eval_batch_size=4,    # 验证时的batch_sizenum_train_epochs=3,              # 训练轮数logging_steps=10,                # log 打印的频率evaluation_strategy="epoch",     # 评估策略save_strategy="epoch",           # 保存策略save_total_limit=3,              # 最大保存数learning_rate=2e-5,              # 学习率weight_decay=0.001,              # weight_decaymetric_for_best_model="f1",      # 设定评估指标load_best_model_at_end=True,      # 训练完成后加载最优模型#max_grad_norm=1.0,# 使用GPU# fp16=True,  # 使用混合精度训练#device="cuda" if torch.cuda.is_available() else "cpu")     # 定义计算指标的函数
def compute_metrics(eval_pred):try:print(eval_pred)predictions, labels = eval_pred#labels = labels.flatten()predictions = np.argmax(predictions, axis=1)f1 = metric.compute(predictions=predictions, references=labels, average="macro")accuracy = (predictions == labels).mean()return {"accuracy": accuracy, "f1": f1["f1"]}except Exception as e:print(e)trainer = Trainer(model=model, args=args, tokenizer=tokenizer,train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], data_collator=DataCollatorWithPadding(tokenizer=tokenizer),compute_metrics=compute_metrics)# 自定义Trainer类
class CustomTrainer(Trainer):def compute_loss(self, model, inputs, return_outputs=False):"""Compute the loss for the given model and inputs.:param model: The model to compute the loss for.:param inputs: The inputs dictionary containing the data.:param return_outputs: Whether to return the model outputs along with the loss.:return: A tuple (loss, outputs) if return_outputs is True, else just the loss."""# 构造模型输入model_inputs = {"input_ids": inputs['input_ids'],"attention_mask": inputs['attention_mask'],"token_type_ids": inputs['token_type_ids']}# 将预测值转换为logitsoutputs = model(**model_inputs)
#         outputs = model(input_ids=inputs['input_ids'],
#                         attention_mask=inputs['input_ids'],
#                         token_type_ids=inputs['token_type_ids'],
#                        )#print(outputs)logits = outputs.logits#print(logits)# 确保预测值的形状为(batch_size, 2)# 如果模型输出已经是二维的,无需额外处理# 将真实标签转换为一维张量labels = inputs["labels"].flatten().long()  # 确保标签是整数类型# 计算交叉熵损失loss = torch.nn.functional.cross_entropy(logits, labels)#print(logits)#print(loss)return (loss, outputs) if return_outputs else loss# 创建CustomTrainer实例
trainer = CustomTrainer(model=model,args=args,train_dataset=tokenized_datasets["train"],eval_dataset=valid_datasets["train"],  # 确保使用验证数据集data_collator=DataCollatorWithPadding(tokenizer=tokenizer),compute_metrics=compute_metrics
)
#trainer.model = trainer.model.to("cuda")
# 确保使用GPU
if torch.cuda.is_available():trainer.model = trainer.model.to("cuda")
# 训练模型
trainer.train()# # 评估模型
# eval_results = trainer.evaluate()
# print(eval_results)
#trainer.train()#trainer.train()

2.2 bitfit ,固定模型的参数

对bais进行固定:102914 , 占比  1.006%;可见训练的内存非常小了;

  1. 如果学习率还是用2e-5 会很慢,所以我修改了2e-3;效果也与上面的很接近了
# 
from transformers import DataCollatorWithPadding
from transformers.trainer_callback import TrainerCallback
import matplotlib.pyplot as pltmodel = AutoModelForSequenceClassification.from_pretrained("../mengzi-bert-base/",num_labels=2)# 自定义回调类,用于在训练过程中打印损失
class PrintLossCallback(TrainerCallback):def __init__(self):self.losses = []self.steps = []def on_log(self, args, state, control, logs=None, **kwargs):# 打印训练过程中的日志信息try:if logs is not None:print(f"Step {state.global_step}: Loss={logs['loss']:.4f}, Learning Rate={logs['learning_rate']:.6f}")self.losses.append(logs['loss'])self.steps.append(state.global_step)except Exception as e :print(f'on_log error {e}')def plot_losses(self):plt.figure(figsize=(10, 5))plt.plot(self.steps, self.losses, label='Training Loss')plt.xlabel('Steps')plt.ylabel('Loss')plt.title('Training Loss Over Time')plt.legend()plt.show()
num_param = 0
for name, param in model.named_parameters():if "bias" not in name:param.requires_grad = Falseelse:num_param += param.numel()args = TrainingArguments(output_dir="./checkpoints",      # 输出文件夹per_device_train_batch_size=32,   # 训练时的batch_sizegradient_accumulation_steps=32,  # *** 梯度累加 ***gradient_checkpointing=True,     # *** 梯度检查点 ***#optim="adafactor",               # *** adafactor优化器 *** optim="adamw_hf",               # *** adafactor优化器 *** per_device_eval_batch_size=4,    # 验证时的batch_sizenum_train_epochs=3,              # 训练轮数logging_steps=10,                # log 打印的频率evaluation_strategy="epoch",     # 评估策略save_strategy="epoch",           # 保存策略save_total_limit=3,              # 最大保存数learning_rate=2e-3,              # 学习率weight_decay=0.001,              # weight_decaymetric_for_best_model="f1",      # 设定评估指标load_best_model_at_end=True,      # 训练完成后加载最优模型#max_grad_norm=1.0,# 使用GPU# fp16=True,  # 使用混合精度训练#device="cuda" if torch.cuda.is_available() else "cpu")     # 定义计算指标的函数
def compute_metrics(eval_pred):try:print(eval_pred)predictions, labels = eval_pred#labels = labels.flatten()predictions = np.argmax(predictions, axis=1)f1 = metric.compute(predictions=predictions, references=labels, average="macro")accuracy = (predictions == labels).mean()return {"accuracy": accuracy, "f1": f1["f1"]}except Exception as e:print(e)trainer = Trainer(model=model, args=args, tokenizer=tokenizer,train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"], data_collator=DataCollatorWithPadding(tokenizer=tokenizer),compute_metrics=compute_metrics)# 自定义Trainer类
class CustomTrainer(Trainer):def compute_loss(self, model, inputs, return_outputs=False):"""Compute the loss for the given model and inputs.:param model: The model to compute the loss for.:param inputs: The inputs dictionary containing the data.:param return_outputs: Whether to return the model outputs along with the loss.:return: A tuple (loss, outputs) if return_outputs is True, else just the loss."""# 构造模型输入model_inputs = {"input_ids": inputs['input_ids'],"attention_mask": inputs['attention_mask'],"token_type_ids": inputs['token_type_ids']}# 将预测值转换为logitsoutputs = model(**model_inputs)
#         outputs = model(input_ids=inputs['input_ids'],
#                         attention_mask=inputs['input_ids'],
#                         token_type_ids=inputs['token_type_ids'],
#                        )#print(outputs)logits = outputs.logits#print(logits)# 确保预测值的形状为(batch_size, 2)# 如果模型输出已经是二维的,无需额外处理# 将真实标签转换为一维张量labels = inputs["labels"].flatten().long()  # 确保标签是整数类型# 计算交叉熵损失loss = torch.nn.functional.cross_entropy(logits, labels)#print(logits)#print(loss)return (loss, outputs) if return_outputs else loss# 创建CustomTrainer实例
plot_losses_callback = PrintLossCallback()
trainer = CustomTrainer(model=model,args=args,train_dataset=tokenized_datasets["train"],eval_dataset=valid_datasets["train"],  # 确保使用验证数据集data_collator=DataCollatorWithPadding(tokenizer=tokenizer),compute_metrics=compute_metrics,callbacks=[plot_losses_callback]  # 注册自定义回调
)
#trainer.model = trainer.model.to("cuda")
# 确保使用GPU
if torch.cuda.is_available():trainer.model = trainer.model.to("cuda")
# 训练模型
trainer.train()# # 评估模型
# eval_results = trainer.evaluate()
# print(eval_results)
#trainer.train()#trainer.train()

打印损失方便查看训练过程! 

2.3 推理

   消极评价

   积极评价

这篇关于10.0大模型微调 bitfit的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1121450

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU