PLUG AND PLAY LANGUAGE MODELS

2023-12-17 21:20
文章标签 models language play plug

本文主要是介绍PLUG AND PLAY LANGUAGE MODELS,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

标题:《PLUG AND PLAY LANGUAGE MODELS: A SIMPLE APPROACH TO CONTROLLED TEXT GENERATION》

时间:2020年3月

作者:Uber AI

内容:本文关注可控生成,或条件生成问题。提出了一个Plug and Play Language Model (PPLM) 模型,它结合了一个预训练LM和一个或若干个属性分类器(attribute classifiers)来引导文本生成,而不需要进一步训练LM。

源码:https://github.com/uber-research/PPLM

Introduction

文本生成器: p ( x ) p(x) p(x)

可控的文本生成器: p ( x ∣ a ) p(x|a) p(xa)。a表示可控制的属性。

属性模型(判别器): p ( a ∣ x ) p(a|x) p(ax)

简单来说就是把属性模型plug进文本生成器里,然后从结果 p ( x ∣ a ) = k p ( a ∣ x ) a ( x ) p(x|a)=k\ p(a|x)a(x) p(xa)=k p(ax)a(x)中sample。

属性模型可以是词袋形式,也可以是单层分类器。sample方法遵循Metropolis-adjusted Langevin (MALA)所启发的gradients in the latent representation space方法。

优化是ex post facto in the activation space地运行的,所以不需要重训练或微调。控制是细粒度的,伴随着一个强参数来决定属性的影响强度(0强度意味着恢复为原始的 p ( x ) p(x) p(x))。属性模型训练较为容器,且在推断阶段,多种控制器可以共同灵活地结合。不同强度的属性模型表现为一群control knobs。

我们的贡献总结如下:

1、提出了PPML模型。

2、展示了模型在a range of attributes的控制下的文本生成,包括7种topic和1个简单的sentiments判决器。我们利用了自动化指标(分开训练perplexity and sentiment models)和人工指标。

3、比较了PPLM与一些功能相近的baseline(主要是微调版本的GPT2以及CTRL。)

【按:这里两个baseline,分别来自(Keskar et al., 2019)《A Conditional Transformer Language Model for Controllable Generation》和(Ziegler et al., 2019)《Fine-tuning language models from human preferences》】

4、我们还展示了PPML模型可以用于detoxify instances where generation of toxic content is likely by following the negative gradient of a model trained to detect toxicity. 我们还展示了 PPLM可以用于结构化约束(structurally constrained)的故事创作。

在这里插入图片描述

Related Work

受控生成;噪声信道模型、加权解码、文本风格迁移。

PLUG AND PLAY LANGUAGE MODELS

1 GPT2

语言模型的基本形态如下:
o t + 1 , H t + 1 = LM ( x t , H t ) x t + 1 = Softmax ( W o t + 1 ) o_{t+1},H_{t+1}=\text{LM}(x_t,H_t)\\ x_{t+1}=\text{Softmax}(Wo_{t+1}) ot+1,Ht+1=LM(xt,Ht)xt+1=Softmax(Wot+1)
其中 o o o是logit vector,x表示word(对应的one-hot向量)

2 STEERING GENERATION: ASCENDING$ {log}\ p(a|x)$

为了控制语言模型的输出,在每一个生成step,我们把history H t H_t Ht在两个梯度的相加的方向上作shift:

1、one toward higher log-likelihood (LL) of the attribute a under the conditional attribute model p ( a ∣ x ) p(a|x) p(ax)

2、one toward higher LL of the unmodified language model p ( x ) p(x) p(x)

The updates are restricted to H t H_t Ht and not the other model activations.具体地:

在这里插入图片描述

如图,先前向计算无控制的分布,再利用属性模型反向更新隐变量H,然后重新计算新的分布。

在这里插入图片描述

3 ENSURING FLUENCY: ASCENDING $ {log}\ p(x)$

上一步的办法还有一个问题,就是可能输出unrealistic adversarial or fooling examples。为了对抗这种趋势,我们以两种方式利用无条件LM,确保生成文本的流畅度与原始语言模型无二。

1、KL散度(Kullback–Leibler (KL) Divergence)

2、 后范数几何平均融合 (Post-norm Geometric Mean Fusion)

在这里插入图片描述

如图,用黑点表示考虑的句子,红色表示 p ( a ∣ x ) p(a|x) p(ax)的梯度下降方向,蓝色表示 p ( x ) p(x) p(x)的梯度下降方向。图里把优化分成了两步,在实践中我们是一步(把两个log分布相加)。我们在H的连续空间中优化,而非在x的离散空间优化。

SAMPLING AND RANKING

PPLM中的属性模型 p ( a ∣ x ) p(a|x) p(ax)扮演两个功能:1、一个score可以基于期望的属性来rank samples(图1的第一步,仅前向传播)。2、一个梯度下降方向可以用于更新隐空壳(图1的第二三步)。前者可以用于对生成的多个样本做排序,然后选择最好的。这可以作为1种在sampling with updated latents之外的额外的属性控制方法。此外,传统上的各种text decoding tricks,如降重,我们也应用了。

EXPERIMENTS, RESULTS, AND EVALUATION

本节,我们描述性能评估方法、不同属性模型下的可控生成结果。We also show use cases of PPLM in language detoxification and in
controlled story telling。所有decoding结果都是基于top-k采样的。

1 评价结果、消融实验

我们考察2个性能:1、PPLM是否生成了满足desired attribute (topic or sentiment)的文本;2、当我们加强属性控制的时候,文本的质量是否下降。

注意,我们总能够turn the control knob down to zero to disable control of attributes and reach the fluency of the original model。如果愿意,user可以tune the knobs at inference until a
chosen tradeoff between attribute strength and fluency is reached。

自动化指标

Perplexity、diversity、external
sentiment classifiers

人工指标

Ablation study and baselines

模型说明
Bthe baseline, unchanged GPT-2 LM, sampled once
BRB but sampled r times, with best sample chosen based on the LL ranking and filtering based on Dist score
BCupdate the latent representations( H ^ t \hat H_t H^t) and then sample once
BCRupdate the latent representations ( H ^ t \hat H_t H^t) and generate r samples. choose the best sample based on the LL score (after filtering out samples with low Dist scores).
CTRLa recent language model

2 BOW ATTRIBUTE MODELS

词袋属性模型。rely on extracting a set of attribute-based phrases to control。
在这里插入图片描述

3 DISCRIMINATOR ATTRIBUTE MODELS

control attributes using more sophisticated discriminators is desirable when it is difficult to express the attribute with a simple bag of words.

The sentiment discriminator here distinguishes sentiment between POSITIVE and NEGATIVE and is trained on the SST-5 dataset

15 prefixes:
在这里插入图片描述

这篇关于PLUG AND PLAY LANGUAGE MODELS的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/505897

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言 今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 密集检索需要学习具有区分性的文本嵌入,以表示查询和文档之间的语义关系。考虑到大语言模

AI聊天应用不能上架?Google play对AI类型应用的规则要求是什么?

随着生成式AI模型的广泛应用,很多开发者都有在开发AI应用或将其整合到应用中。我们知道,谷歌是非常注重应用生态的,去年开始就推出了一些针对生成式AI应用的政策,对AI应用的内容质量和合规性问题提出了一些要求。 几天前,还有开发者聊到,现在AI类型应用(如AI聊天)上架越来越难了。 (可斯信进qun与众多开发者交流上架经验) 这很可能是没了解清楚Google play 对AI应用的一些

Google play最新政策更新和重要提醒

我们都知道,谷歌会定期更新其政策,而政策的变更通常对开发者及其团队的要求会更为严格,也会增加应用上架的一些限制条件,以此提高应用在谷歌商店的质量。 一起来看看Google play最近的一些政策更新和需要注意的地方。 新政策要求 对于提供金融产品和服务、健康服务、VPN、政府相关服务的开发者,需要注册为“企业”开发者账号才能提审上架应用。 Google play这个举措主要

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

Python应用运行报错,部分错误信息如下: Traceback (most recent call last): File “\pipelines_ootd\unet_vton_2d_blocks.py”, line 29, in from diffusers.models.dual_transformer_2d import DualTransformer2DModel ModuleNotF

阅读笔记--Guiding Attention in End-to-End Driving Models

作者:Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间:arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力,以提高它们的驾驶质量和获得更直观的激活图。 摘 要   介绍

Splay树(区间添加删除 | 区间翻转)——HDU 3487 Play with Chain

对应HDU题目:点击打开链接 Play with Chain Time Limit: 6000/2000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 4571    Accepted Submission(s): 1859 Problem Descript