[AI]算法小抄-总结大模型微调方式

2024-02-10 22:20

本文主要是介绍[AI]算法小抄-总结大模型微调方式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章主要目的快速厘清不同方法的原理差异和应用场景,

对于理论的细节请参考文末的Reference,

Reference中会筛选较为正确,细节的说明

想要建构属于自己应用或特定垂直领域的大模型,除了类似LangChain, TaskMatrix.AI使用Prompt工程的方式,微调(Fine tunning)是更可控且可以持续迭代的方式,预训练语言模型(PLM) + Finetuning的方式也是目前主流的范式,以下介绍几个主流方案,每个方案针对的场景,所需要的数据,成本都不相同:

Supervised finetuning

Prompt tuning

相比于直接透过子任务的结构去进行finetuning,prompt tuning主要是让数据变成更像是预训练模型更熟悉的模式进行finetuning,前身是In-Context Learning (ICL),比如文本情绪分类任务,传统的finetuning数据和promt-tuning区别如下

[Normal Fintuning]

Input: This movie is great

label: happy

[Prompt Tuning]

Input: This movie is great, feel [Mask]

label: This movie is great, feel happy

可以观察到Prompt-tining的数据更接近自然语言的表述,更接近PLM训练的dmomain。主要的步骤包含:模版建构(Template construction)和标签词映射(Label Word Verbalizer),详细的原理可以参考Prompt-Tuning——深度解读一种新的微调范式

Instruction finetuning

首先由Finetuned Language Models Are Zero-Shot Learners提出,主要是将finetuning的子任务转化成自然语言指令(Instruction)进行微调,具体的子任务并不重要,主要是让PLM能够更了解人类的指令,并做出正确的解答,以下是论文中的示例


Intrsuction fintuning也是GPT3之后的大模型能够很好响应人类指令的原因,LangChain, LlmaIndex乃至于GPT-Plugin等工具能够实用也主要是因为个微调方法

Reinforcement learning human fine tuning (RLHF)

RLHF跟之前两个提到方法的区别主要在于其主要的学习目标是人类真实的偏好,也是CahtGPT的回答能够更好满足人类需求的关键所在,训练框架也跟之前较为不同,引入强化学习的训练方式,收先提出这个方案的是Fine-Tuning Language Models from Human Preferences

训练的方式是让policy network(GLM)提出几种可能的答案,并混入人工撰写的答案,然后训练reward model了解人类打分的偏好,进而引导Plocy network输出更符合人类偏好的结果,但是可以看得出来,数据制作的成本远高于上述的两个方法,需要涉及人类排序以及人工撰写的过程

总结

以下根据适合的任务,成本对于上述的方法进行总结

方法适合任务数据成本训练成本
Prompt-tuning自然语言类型子任务,如:文本分类,语义分析...等中,模版设计和映射对于效果影响巨大低,一个子任务只需要少部分数据
Instruction-tuning通用型分发任务,比如:API调度,AutoGPT等低,半自动化生成,参考Alpaca低,一个子任务只需要少部分数据
RLHF强用户体验相关,比如:人格化,聊天...等高,需要人工打分以及人工撰写高,数据跟训练效果未知

Reference 

Instruction Tuning(FLAN、instructGPT、chatGPT)

打开模型Zero-Shot新范式:Instruction Tuning

这篇关于[AI]算法小抄-总结大模型微调方式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/698170

相关文章

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

Spring AI集成DeepSeek的详细步骤

《SpringAI集成DeepSeek的详细步骤》DeepSeek作为一款卓越的国产AI模型,越来越多的公司考虑在自己的应用中集成,对于Java应用来说,我们可以借助SpringAI集成DeepSe... 目录DeepSeek 介绍Spring AI 是什么?1、环境准备2、构建项目2.1、pom依赖2.2

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

SQL 中多表查询的常见连接方式详解

《SQL中多表查询的常见连接方式详解》本文介绍SQL中多表查询的常见连接方式,包括内连接(INNERJOIN)、左连接(LEFTJOIN)、右连接(RIGHTJOIN)、全外连接(FULLOUTER... 目录一、连接类型图表(ASCII 形式)二、前置代码(创建示例表)三、连接方式代码示例1. 内连接(I

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Android里面的Service种类以及启动方式

《Android里面的Service种类以及启动方式》Android中的Service分为前台服务和后台服务,前台服务需要亮身份牌并显示通知,后台服务则有启动方式选择,包括startService和b... 目录一句话总结:一、Service 的两种类型:1. 前台服务(必须亮身份牌)2. 后台服务(偷偷干

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首