(Reading)From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood

本文主要是介绍(Reading)From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

该paper发表在2017年的ACL

作者:Kelvin Guu, Panupong Pasupat, Evan Zheran Liu, Percy Liang

Percy Liang是stanford的计算机科学与统计学的助理教授,现在主要从事ML和NLP的研究,近几年名声大噪,另外三个是他的Ph.D。

该文提出了一种TANGRAMS方法对文本自动生成程序。主要是通过一个神经编码-解码模型生成一系列程序token,另外考虑到本文提出的模型主要将文本生成程序的任务当做是一个序列预测问题,而序列预测问题的学习方法主要有REINFORCE和BS-MML这两种方法,而REINFORCE和BS-MML都使用一种exploration strategy去近似它们各自的梯度,由于伪程序的种类远大于正确程序的种类,这样导致一开始扩展伪程序的可能性要大于正确的程序,之后每个梯度Step生成正确程序的概率都无法提高,即the rich get richer, and the poor get poorer,从而使生成的程序更加偏向伪程序,为此该文代替提出了一种RANDOMER方法解决该问题。该方法主要是通过减少程序初始分布的敏感度来尽量避免生成的程序偏向伪程序。

**神经编码-解码过程:**

1. **编码:**编码主要是采用一种双向LSTM模型,给定一个输入x,一个话语指针m,初始m=1,为了生成程序表征z,模型的编码器首先编码话语u成为一个话语向量e(在话语中的每个词语都是采用固定的Glove词嵌入,最终的话语嵌入是将获得的词向量做加法),然后,给予e和生成的前面生成的所有表征z,模型的编码器给所有可能的z值定义了一个分布p,下一个话语表征z是被从这个分布抽样出来,如果一个行为表征是被生成,模型m增加1,当所有话语是被执行编码,这个过程终止,生成一个特殊程序的最终概率是p(z|x)=分布p的联乘。

2. **解码:**对于解码该文为了简化使用了一个前馈网络,在该前馈网络中,该文使用话语向量e和一个embedding之前生成的所有程序表征的f函数作为输入,从而计算一个注意力向量c(使用Relu作为激活函数,激活函数用q来表示),在获得q和c之后,可能的程序表征z集合的分布是通过一个Softmax计算出来。 对于执行历史嵌入:该文比较对于之前生成的所有程序表征嵌入的f函数(该文执行历史的嵌入)的两个选择,一个标准的方法是简单的提取k个最早生成的的表征z,并且给他们的嵌入做加法。该文将会参考它做表征,在该文的实验中k=4。

**RANDOMER方法:**本文主要使用RANDOMER方法作为预测问题的学习方法,该方法通过使用ε-greedy randomized beam search减少扩展偏向伪程序,并通过使用β-meritocratic parameter update rule执行更均衡的优化并使获得的回报大致相同。

**ε-greedy randomized beam search:**假设在beam search的step t,在大多数B搜索状态一个beam为Bt,各个状态s∈Bt表示一个部分构造的程序,对于在beam中的每个状态s生成的所有可能的continuations为con(s),cont(Bt)表示在step t所有状态s生成的所有可能的continuations的和。在搜索过程中,该文首先和以往beam search一样,首先计算在iteration t所有con(Bt)的集合,并根据它们的模型概率pθ(s|x),不同于以往的是该文逐个选择B continuations without replacement from con(Bt)。当从余下选择一个continuation时,该文统一以概率ε随机抽样一个continuation或者以1-ε挑选最高分数的continuation。

**β-meritocratic parameter update rule:**该文考虑到对于MML即使所有reward-earning程序都有一个非常低的模型概率,他们总共的的梯度权重也为1,但是仍然不能保证每个情况程序的回报都是一致的。因此该文定义了一个β-smoothed版本的梯度权重。当β=0时,任何情况下的所有reward-earning程序的梯度权重完全一致,当β=1时,就还是MML的梯度权重。

如有不对,欢迎指正。

这篇关于(Reading)From Language to Programs: Bridging Reinforcement Learning and Maximum Marginal Likelihood的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/598590

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

leetcode#628. Maximum Product of Three Numbers

题目 Given an integer array, find three numbers whose product is maximum and output the maximum product. Example 1: Input: [1,2,3]Output: 6 Example 2: Input: [1,2,3,4]Output: 24 Note: The lengt

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言 今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 密集检索需要学习具有区分性的文本嵌入,以表示查询和文档之间的语义关系。考虑到大语言模

Maximum likelihood function maximizes what thing?

最大似然函数(Maximum Likelihood Function)最大化的是数据在给定参数下出现的概率。具体来说,它最大化的是似然函数(Likelihood Function),即给定参数 ( \theta ) 下观测数据的概率。在统计学中,似然函数 ( L(\theta) ) 通常定义为所有独立观测数据点概率的乘积,对于参数 ( \theta ) 的函数。 对于一组独立同分布的观测数据

ORA-24067: exceeded maximum number of subscribers for queue ADMIN.SMS_MT_QUEUE

临时处理办法: delete from aq$_ss_MT_tab_D;delete from aq$_ss_MT_tab_g;delete from aq$_ss_MT_tab_h;delete from aq$_ss_MT_tab_i;delete from aq$_ss_MT_tab_p;delete from aq$_ss_MT_tab_s;delete from aq$