透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

本文主要是介绍透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。

「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验知识,而模型问答其实就是引导大模型给出相关先验知识的过程」。对于提高大模型的性能,一种常见的方法就是不断的增加模型计算、Token和参数来提升规模。虽然这种方法可以让模型具备更广泛的知识,但是如何让这些基础模型在特定的下游能力上变得有用和高效(本质就是让模型给出符合预期的先验知识)。「这是目前大模型研究的一个主要方向:模型数字驯化研究,也就是我们平时说的模型调优」。本文总结介绍了目前学术界最主要的**「5种模型调优方法」,并结合对5种方法的分析,给出了一个「优化算法选择的思路框架」**。

背景介绍

训练大型语言模型(LLMs)和视觉语言模型(VLMs)的过程关键依赖于大量的互联网数据。像Transformer这样的高容量模型架构已经展示了对极其多样的数据分布进行有效建模的重要能力。这些大型模型在训练过程中接触各种各样的数据,包括优雅的小说散文和恶意的帖子、杰出的软件项目和有缺陷的代码、精美的专业摄影和业余自拍照片。虽然这些模型可以反映数字人类体验,但它们无法产生高质量、可取且一致的输出,然而这在大规模用户应用中是必需的。

我们应该认识到这些原始模型并不是糟糕的模型,它们实际上是对训练数据的分布进行建模。尽管这些底层数据分布可能包含不可取的特性,但也包含了良好特性、多样性和规模,这些是实现高性能模型的必要条件。「一个流行的假设是,模型的知识和能力主要在预训练阶段学习,而对齐过程则是引导模型在推理过程中使用哪些先验分布」。因此,如何在数据集中放大好的先验知识并抑制不好的先验知识,以及如何驯服从互联网分布中直接捕获的原始模型,成为一个重要问题。

过去一年里,有几种主要的方法逐渐流行起来。尽管它们的技术基础和优势各不相同,但它们都具有一个共同的目标:如何对一组期望先验进行放大,将其映射到模型对互联网规模数据集的理解上。本文主要研究各种先验放大方法和显著的用法示例,并提供一个算法选择的思路框架

Prompting

通过精心设计的提示(prompt)来引导一个基础模型朝着期望的先验方向进行是目前门槛最低的方法,有时候该方法也被成为无梯度调优。prompt利用了训练时看到的关联和先验信息,例如高ELO分数的国际象棋比赛会有更强的走法,因此在测试时,一个好的prompt应该明确告诉模型它处于高水平的国际象棋比赛中,并做出像大师一样精确的预测。

prompt工程存在一些局限性,它是一种机会主义策略,即提示策略高度依赖于原始训练数据集中出现的模式、相关性和先验信息。成功的prompt工程需要在提示过于通用和过于具体之间取得平衡,因为如果提示过于通用,模型可以成功地跟随,但可能没有太大用处;而如果提示过于具体,则虽然有用,但模型无法泛化到其他情况。此外,prompt工程还受到训练数据分布中不理想数据的相关性的影响,这被称为“Waluigi效应”,从而导致提示无法有效地放大先验。

基于以上分析,为了更有效地放大先验信息,对原始模型进行微调是否可以避免零样本提示的局限性呢?

监督微调(SFT)

监督微调(Supervised Finetuning,SFT)主要思路是:首先使用在多样化数据集上预训练的原始模型,然后在规模较小但质量更高的数据集上进行进一步训练,这些数据集可以是原始数据集的子集,也可以不是。其中微调数据集充当包含所有最终模型所需属性的黄金标准。这种简单性提出了一个有说服力的论点:「将目标数据集提供给原始模型,SFT承诺将原始模型靠近目标分布」。由于SFT是监督学习,如果数据好且模型庞大,成功是有保证的。

SFT的范围对于微调数据集的来源也很灵活。它可以是原始多样化数据集的子集,也可以是全新的自定义数据集。它可以通过人工创建和验证,也可以使用设计的启发式和规则进行自动获取,它也可以通过合成生成。图片 但是假设我们选择了一个特定的微调数据集,代表了我们希望融入模型的所有良好先验条件:「那么如何对基础模型进行微调呢」?在这里,也有几种选择:

  • 标准的SFT对整个基础模型进行微调,更新整个网络的权重。这是可能引起底层模型行为显著变化的最详尽的更新类型。
  • 轻微的方式进行微调,只有网络的某个子集可以进行微调;LiT就是一个例子,它在微调语言编码器的同时冻结了CLIP图像编码器。
  • 参数高效微调(Parameter-Efficient Finetuning,PEFT)是最近刚刚出现的新方法,该方法冻结了原始模型的大部,仅微调相对较小的模型参数集。像LoRA这样的PEFT方法就是非常大的创新,它使得消费者硬件就能够对相当大的基础模型进行微调。显然,「SFT的实现方式正在迅速发展,并且在可预见的未来可能仍将是一个令人兴奋的领域」。无论具体的SFT方法如何,对底层微调数据集的组成和质量都有很大的依赖。在SFT中,扩大哪些先验条件和如何扩大它们同样重要。

RLHF

RL微调引入了一个奖励模型,这是一个独立的组件,旨在在训练过程中直接为模型输出提供细粒度的反馈信号。其中最流行的RL微调范式之一是基于人类反馈的RL(RLHF),其中奖励模型直接根据人类偏好标签进行训练。与SFT采用的非参数方法不同,RLHF则相反,即通过参数化的奖励模型明确学习良好的先验知识,然后在训练过程中直接“告诉”原始模型这些偏好。将自回归标记预测视为强化学习问题有两个优势:「直接的在线反馈」「在次优数据上进行训练」

「首先,基于在线策略的学习信号非常有用,与标准离线离策略训练期间看到的信号在性质上有很大的不同」。在线反馈使模型了解“你的最佳预测有多好?”而离策略反馈告诉模型“这个其他预测会有多好?”。然而,除了在线反馈最具信息量之外,有时离策略反馈可能过时且不正确:预先收集的训练数据集包含在真空中存在的目标标签,并未考虑模型的当前能力。

「其次,RLHF提供了细粒度的奖励,使得可以在次优数据上进行训练」。而SFT设置只允许在包含或排除不同质量数据之间设定硬性界限,RLHF则采用更灵活的方法,在奖励模型训练期间和使用奖励模型进行微调期间都能够利用次优数据。在奖励模型训练期间,可以包含各种质量的数据,以使奖励模型更具鲁棒性。在基础模型微调期间,奖励模型能够输出多个细粒度的奖励尺度(例如,“正确+自信”的1.0奖励,"正确+不自信"的0.5奖励以及“错误+自信”的-2.0奖励),从而有效利用不同类型的次优数据。

除了这两个技术优势之外,还有一个系统级的优势,即将奖励模型视为一个独立组件,可以进行迭代研究和改进。这提供了非常微妙的奖励建模的潜力,然后可以将非常细粒度的反馈传递给原始基础模型。这在实证上得到了支持,因为与成功的RLHF微调相比,SFT似乎会导致基础模型的指令跟随行为发生较大变化。

RLAIF

RLHF通过将人类知识转移给AI模型提供了强大的机制,但也面临一些实际限制:人类反馈可能会存在噪音、不一致性,并且收集起来成本高昂。为了应对这些挑战,RLAIF旨在将现有的AI模型引入到反馈循环中,通过利用预训练模型生成用于训练奖励模型的偏好数据。RLAIF利用提示的基础模型中包含的良好先验生成自动化的偏好数据,无需人类参与,用于下游奖励模型的训练。

此外,基础模型可以充当AI评论家,不仅可以生成数据用于奖励模型,还可以直接成为奖励模型。在推理阶段,基础模型尝试完成任务并进行自我反思。在训练阶段,基础模型提供直接的策略反馈,将良好的先验知识融入到微调模型中。

合成数据生成SDG

AI 模型是否也可以改进我们获取和标记全新数据集的方式?更进一步,人工智能模型能否生成足够高质量的有用数据以供后续训练呢?

「一种可能的方法是不完全取代人类在数据引擎环节中的作用,而是通过共享自治的范式来增强人类能力」。AI模型的预测可能不是完美的,但可能是一个足够好的起点,可以节省人类标注的时间。例如,特斯拉自动驾驶团队的视觉数据引擎使用自动标签来进行诸如3D物体分割和车道检测等任务,并作为人类标注员进行校正的初始起点。最近,Meta发布了SA-1B分割掩码数据集,通过一种交互式的模型辅助标注过程,比完全手动标注的方法快6.5倍。

「除了协助人类标注员之外,生成建模的进步是否能够在完全没有人类参与的情况下创建有用的合成数据」?过去已经广泛研究了这个想法,称为半监督学习或伪标签;这篇博文是对2021年之前半监督学习的一个很好的概述。但是,2021年以后,在语言和视觉领域中性能出色的大规模模型的普及极大地增加了合成数据生成的潜力。过去,合成标签依赖于狭窄的特定领域模型,现在合成标签可以由不特定于当前任务的通用模型产生。这有两个好处:降低了尝试合成数据生成的成本,并有可能将互联网规模的常识引入到特定的训练领域中。

使用大规模通用模型进行狭窄合成生成”的这一概念已经在各种领域中得到越来越广泛的探索。

最佳策略

那么,对于大模型的最佳微调策略是什么?

图片

目前,已经有一些可行的建议可以得出结论。总结比较早期的方法,在做出有关先验放大的设计时,需要考虑一些潜在问题:

  • 原始训练语料库是否包含您想要的所有能力和先验?如果是,请尝试提示;如果否,微调模型。
  • 获取不同的微调数据集是否容易?如果是,请尝试 SFT;如果否,请尝试 RLHF 或 AI 反馈。
  • 您可以访问大量计算吗?如果是,微调整个模型;如果否,请使用 PEFT。
  • 现有的 AI 模型是否足以生成数据或验证数据?如果数据生成足够好,请尝试创建合成数据(SDG);如果足以验证但不能生成,请尝试使用 AI 反馈 (RLAIF) 或自我反思;如果两者都不是,请坚持使用 RLHF。

从更广泛的角度来看,我们需要认识到**「AI助力先验分布放大过程是一把双刃剑」**。随着AI模型在数据整理和训练过程中的越来越广泛应用,这些AI模型中预设的先验知识也会被传递下来——包括可取和不可取的先验知识。讨论过的所有微调方法都可以反复应用多次,每次生成的“学生”模型都会成为下一代的“老师”。因此,随着时间的推移,与过去简单的模型训练血统相比,特定先验知识的原始来源开始变得模糊不清。这对AI领域的技术方法论、安全性和控制偏见具有非常现实的影响。本文源自:https://thegradient.pub/ai-is-domestification/

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

这篇关于透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1151718

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}