[文献阅读]——Prefix-Tuning: Optimizing Continuous Prompts for Generation

本文主要是介绍[文献阅读]——Prefix-Tuning: Optimizing Continuous Prompts for Generation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

task-specific的Fine-tuning需要为一个下游任务保存一个模型(只fine-tune task-specific的网络,参数量也不是很多啊?),而本文提出的prefix-tuning为不同任务设置一个向量,插入到输入中,减少需要保存的参数。

该问题的相关工作:

  • fine-tuning:微调整个模型
  • lightweight fine-tuning:选择一些参数(问题是选哪些)、或者插入一些层与层之间的参数来微调(ADAPTER)
  • prompting:给输入插入一些触发词,来充分利用语言模型的优势
    • 离散的(显式的、可解释性的):
      • 人为设定的标识符,比如在摘要任务中,插入:“summarize the following table in one sentence”,效果不好
      • 数据驱动的搜索标识符,效果会更好,但计算困难
    • 连续的(隐式的、不可解释性的):
      • 插入向量标识符,微调更新

任务介绍

使用autoregressive模型来做生成:
在这里插入图片描述
使用encoder-decoder模型来做生成:
在这里插入图片描述
训练目标:
在这里插入图片描述

我的理解为:自回归模型将完整的X和Y作为输入,通过mask attention的方式,让生成的第i步,只能关注到前i步的信息;encoder-decoder的架构首先用一个encoder来把编码获得上下文信息,利用这个不变的上下文信息于decoder中

Prefix-Tuning

直觉:向量标识符能够指示模型1. 更好的从x中进行编码 2. 更好的影响y生成的概率分布

定义一个向量指示符的集合{p_1, p_2,…p_n},对应的参数为p_θ。对于自回归模型,输入为[p_i; x; y],encoder-decoder的输入为[p_i;x;p_j;y]。第i个时间部的计算结果为:
在这里插入图片描述
可以看到,p_j的位置保留了原来p_θ中的参数向量(通过mask attention实现,即掩盖掉对其它所有位置的attention),非p的位置i则attend to在i之前的所有位置,包括p_j,所以说,所有位置的输出,都是a output produced by a function of the trainable parameters p_θ。

如何设置p_θ?就设置一个 |p_i|(指示符个数) x dim 的矩阵就可以了吗?

实验表明,直接这么做,对学习率、初始化非常敏感,文中的做法为,同时设置两个参数矩阵:

  • p_θ’ : |p_i| x k
  • MLP:k x dim
    每一次取出p_i的向量表示时,都需要MLP(p_θ’[i,:]),而当这两个参数矩阵训练完毕之后,保留p_θ = MLP(p_θ’)

实验

Table-to-text

比较了Prefix 和 Fine-Tune-all、Fine-Tune-Top2、ADAPTER-tuning,发现不上不下。疑问:为什么没有比较prompting?

Summarization

只比较了Prefix和Fine-Tune,发现效果更差。

Low-data Setting

低资源情况下,效果更好。

Extrapolation

即,在特定类别训练,在其它类别预测,发现ADAPTER和Prefix都不错,可能是都原封不动地使用了预训练的所有层,而对新加入的内容进行微调。

其它

改变prefix的长度,发现随着长度的增大,性能先上升、再下降
比较了finetune embedding layer的方法,发现效果很差
比较了改变指示符位置(插入到中间)的方法,发现效果有所下降,可能是因为插入在开始的位置,能够:“1. 更好的从x中进行编码 2. 更好的影响y生成的概率分布”
比较了不同的初始化方法,发现用原预训练词表中的任务相关的词,效果更好

这篇关于[文献阅读]——Prefix-Tuning: Optimizing Continuous Prompts for Generation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/667555

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

LLVM入门2:如何基于自己的代码生成IR-LLVM IR code generation实例介绍

概述 本节将通过一个简单的例子来介绍如何生成llvm IR,以Kaleidoscope IR中的例子为例,我们基于LLVM接口构建一个简单的编译器,实现简单的语句解析并转化为LLVM IR,生成对应的LLVM IR部分,代码如下,文件名为toy.cpp,先给出代码,后面会详细介绍每一步分代码: #include "llvm/ADT/APFloat.h"#include "llvm/ADT/S

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

Python安装llama库出错“metadata-generation-failed”

Python安装llama库出错“metadata-generation-failed” 1. 安装llama库时出错2. 定位问题1. 去官网下载llama包 2.修改配置文件2.1 解压文件2.2 修改配置文件 3. 本地安装文件 1. 安装llama库时出错 2. 定位问题 根据查到的资料,发现时llama包中的execfile函数已经被下线了,需要我们手动修改代码后

AI文献综述神器,有这一款就够了!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 当前的AI辅助文献综述的工具有很多,如果说功能最强大的,娜姐无疑要推SciSpace了。 SciSpace利用强大的AI算法,理解并建立研究论文之间的联系,可以大大提升文献综述的质量和效率。并且其功能还在不断更新和完善。        1 强大的语义搜索功能 传统的关键词搜索可能会遗漏相关文献,Sc

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话:“四大光谱”在天然产物结构鉴定中的应用,天然产物化学及其生物合成必备基础知识~ 摘要 天然产物化学研究在药物研发中起着非常重要的作用,结构研究又是天然产物化学研究中最重要的工作之一。在天然药物化学史话系列文章的基础上,对在天然产物结构研究中起绝对主导作用的“四大光谱”分析技术,即红外光谱、紫外光谱、质谱、核磁共振波谱在天然产物结构鉴定中的应用历史进行回顾与总结,并对其发展

你读文献的方式可能错了!掌握这些技巧,让阅读事半功倍!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 科研新手如何精读一篇论文? 很多科研新手,一上来就疯狂下载几十上百篇文献。囫囵吞枣看完了,还是什么都不知道,大脑一片空白。究竟该如何读文献收获最大? 大佬说,要积极阅读、频繁阅读。 什么是积极阅读? 相比被动阅读,积极阅读是指在阅读之前准备好问题、设置阅读目标、保持批判性,收获更多、进步更大的一种阅读

如何借助AI快速筛选和整理文献?

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 在撰写毕业论文时,文献综述是必不可少的部分。它不仅为你的研究提供理论背景,还展示了你对研究领域的深入理解。然而,文献综述的撰写过程常常让学生感到头疼,尤其是面对海量文献时,如何有效筛选、整理和撰写是一大难题。 本文将为大家介绍如何利用AI工具帮助你轻松高效地完成文献综述的写作。我们将详细讲解如何快速