Transformer微调实战：通过低秩分解（LoRA）对T5模型进行微调（LoRA Fine Tune）

本文主要是介绍Transformer微调实战：通过低秩分解（LoRA）对T5模型进行微调（LoRA Fine Tune），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

scient

scient一个用python实现科学计算相关算法的包，包括自然语言、图像、神经网络、优化算法、机器学习、图计算等模块。

scient源码和编译安装包可以在Python package index获取。

The source code and binary installers for the latest released version are available at the [Python package index].

https://pypi.org/project/scient

可以用pip安装scient。

You can install scient like this:

pip install scient

也可以用setup.py安装。

Or in the scient directory, execute:

python setup.py install

scient.neuralnet

神经网络相关算法模块，包括attention、transformer、bert、lstm、resnet、crf、dataset、fit等。

scient.neuralnet.lora

实现了多个网络层的LoRA微调，包括Linear。

scient.neuralnet.lora.Linear(in_features: int, out_features: int, r:int, bias: bool = True)

Parameters

in_features : int
Linear层的输入节点数.
out_features : int
Linear层的输出节点数.
r : int
中间层维度为r.
bias : bool, optional
Linear层的bias参数.

Algorithms

LoRA的基本原理是冻结预训练的模型参数，然后在Transfomer的每一层中加入一个可训练的旁路矩阵（低秩可分离矩阵），接着将旁路输出与初始路径输出相加输入到网络当中，并只训练这些新增的旁路矩阵参数。其中，低秩可分离矩阵由两个矩阵组成，第一个矩阵负责降维，第二个矩阵负责升维，中间层维度为r，从而来模拟本征秩（intrinsic rank），这两个低秩矩阵能够大幅度减小参数量。

在这里插入图片描述

Examples

下面采用代码实例说明LoRA微调T5的过程，首先需要构建T5模型，T5模型的构建参见：Transformer经典模型实战：零基础训练一个面向中文的T5模型（Text to Text Transfer Transformer）
本示例所用的代码与上述链接中的T5模型构建、数据准备、训练、验证基本一致，不同之处是在模型构建时加入了如下LoRA部分：

pretrain_path='d:\\model.state_dict'#构建T5模型，并加载预训练的权重，后面对此预训练模型进行微调。
model=transformer.T5Transformer(vocab_size=vocab_size,dropout=0.1,ffn_size=3072)
model.load_state_dict(torch.load(pretrain_path),strict=False)#本示例的LoRA作用于attention中的query权重
for layer in model.encoder+model.decoder:# breaklayer.multi_head_attn.query=lora.Linear(layer.multi_head_attn.query.in_features, layer.multi_head_attn.query.out_features,r=64,bias=layer.multi_head_attn.query.bias)#LoRA矩阵的命名为 lora_A 和 lora_B，这里将LoRA矩阵之外的权重进行冻结
for k,v in model.named_parameters():# breakif 'lora' not in k:v.requires_grad=Falseelse:print(k,v.requires_grad)

进行如上设置，采用T5模型相同的训练方式，即可对T5进行微调，具体训练方式参见：Transformer经典模型实战：零基础训练一个面向中文的T5模型（Text to Text Transfer Transformer）

在训练前后，可以查看LoRA权重不断更新，非LoRA权重不更新，查看方式如下：

model.encoder[0].multi_head_attn.query.lora_A
model.encoder[0].multi_head_attn.query.lora_B
model.encoder[0].multi_head_attn.query.weight
model.encoder[0].multi_head_attn.query.bias

附代码中用到的tokenizer模型spiece.model、训练数据rewrite_train3.xlsx和预训练模型model.state_dict的下载地址：
链接：https://pan.baidu.com/s/12vEZBYldXvPrJTiFUEKGUw?pwd=DTFM
提取码：DTFM

这篇关于Transformer微调实战：通过低秩分解（LoRA）对T5模型进行微调（LoRA Fine Tune）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Transformer微调实战：通过低秩分解（LoRA）对T5模型进行微调（LoRA Fine Tune）

scient

scient.neuralnet

scient.neuralnet.lora

Parameters

Algorithms

Examples

相关文章

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

SpringBoot 多环境开发实战(从配置、管理与控制)

Three.js构建一个 3D 商品展示空间完整实战项目

从原理到实战解析Java Stream 的并行流性能优化

Maven中生命周期深度解析与实战指南

Python实战之SEO优化自动化工具开发指南

Java 正则表达式的使用实战案例

Java Scanner类解析与实战教程

Python内存优化的实战技巧分享

Nginx中配置使用非默认80端口进行服务的完整指南