TsingHua:FPT: Improving Prompt Tuning Efficiency via Progressive Training

本文主要是介绍TsingHua:FPT: Improving Prompt Tuning Efficiency via Progressive Training,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这篇文章我觉得做的也挺有意思的。
是在探究提示学习中渐进式的更新参数比一窝蜂的直接更新参数效果要佳。

开头

是从比较PT(prompt learning和fine tuning)开始的。为什么PT的收敛速度慢,训练效率低下?

因为PT中中可训练的参数大大减少了吧。微调起来不是很容易。

(我感觉论文中提到的PT是soft PT),折磨说的:PT prepends a few virtual
tokens to the input text, these tokens are tuned during training while all the other PLM parameters remain frozen
在这里插入图片描述

Core idea

Fast Prompt Tuning (FPT), which starts by conducting PT using a small-scale partial PLM, and then progressively expands its depth and width until the full-model size.

在这里插入图片描述

split the original PT training process into N stages.
We start with a small-size partial PLM M1 and
then progressively rehabilitate its depth and width
until the full-size model MN, creating a series of
partial PLMs {Mi}N−1i=1 with growing sizes

在每个训练阶段 i,我们对部分 PLM Mi 进行 PT,并获得学习的软提示 Pi。基于观察到 Mi 保留了全尺寸 PLM MN 的大部分功能,我们推测 Mi 可以作为 MN 的完美替代品并学习如何处理下游任务。此外,考虑到不同部分 PLM 学习到的软提示在参数空间中很接近,我们可以通过回收 Pi 将 Mi 学到的知识迁移到 Mi+1。具体来说,每次模型扩展后我们直接使用Pi作为下一阶段训练Mi+1的初始化。由于对于每个部分 PLM,参与前向和后向过程的参数较少,因此可以减少计算量。保持总训练步数不变,FPT 与 vanilla PT 相比可以加速训练

总结

渐进式(Progressive Training)对于加速和改善PT训练过程有帮助。
原文中给出的是train effect(训练效率:比如计算资源的使用量…)的对比表,在消耗较低资源下,还能取得不错的效果。

对照于开头中的训练效率对比图,给出的实验结果为:
在这里插入图片描述

这篇关于TsingHua:FPT: Improving Prompt Tuning Efficiency via Progressive Training的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/360757

相关文章

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

Prompt - 将图片的表格转换成Markdown

Prompt - 将图片的表格转换成Markdown 0. 引言1. 提示词2. 原始版本 0. 引言 最近尝试将图片中的表格转换成Markdown格式,需要不断条件和优化提示词。记录一下调整好的提示词,以后在继续优化迭代。 1. 提示词 英文版本: You are an AI assistant tasked with extracting the content of

Post-Training有多重要?一文带你了解全部细节

1. 简介 随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调方法也在不断更新。InstructGPT、WebGPT等较早发布的模型使用标准RLHF方法,其中的数据管理风格和规模似乎已经过时。近来,Meta、谷歌和英伟达等AI巨头纷纷发布开源模型,附带发布详尽的论文或报告,包括Llama 3.1、Nemotron 340

The Prompt Report 2

The Prompt Report 提示工程调查报告《The Prompt Report: A Systematic Survey of Prompting Techniques》 主要内容 Core Prompting Techniques Text based Techniques:PRISMA流程,58中基于文本的提示技术,提示语术语分类表;MLT:Multilingual T

Google Research 推出高效的Prompt Tuning方法

人工智能咨询培训老师叶梓 转载标明出处 一般模型微调方法需要对预训练模型的所有参数进行调整,这在大规模模型中既耗时又耗资源。Google Research的研究团队提出了一种名为“Prompt Tuning”的方法,旨在通过学习“软提示”来调整冻结的语言模型,使其能够更好地完成特定的下游任务。这种方法不仅简单有效,而且在模型规模增大时,其性能逐渐接近全模型微调(Model Tuning)的效果。

2015 Multi-University Training Contest 5 1009 MZL#39;s Border

MZL's Border  Problem's Link:  http://acm.hdu.edu.cn/showproblem.php?pid=5351   Mean:  给出一个类似斐波那契数列的字符串序列,要你求给出的f[n]字符串中截取前m位的字符串s中s[1...i] = s[s.size()-i+1....s.size()]的最大长度。 analyse:   过计算

MaPLe(论文解读): Multi-modal Prompt Learning

Comment: Accepted at CVPR2023 摘要 预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。 受到NLP领域的启发,最近的CLIP的自适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支(语言或图像分支)中