2024 年1月12日最热NLP大模型论文:Transformers are Multi-State RNNs

2024-01-12 20:20

本文主要是介绍2024 年1月12日最热NLP大模型论文:Transformers are Multi-State RNNs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

揭秘Transformer的无限可能,Meta研究发现Transformer其实是多状态RNN

引言:重新定义Transformer的视角

在自然语言处理(NLP)的领域,Transformer架构自2017年提出以来,已经成为了一种主流的模型,它在多种任务中取得了前所未有的成功。与此同时,循环神经网络(RNN)这一曾经的主流架构逐渐被边缘化。然而,本文的研究提出了一个颠覆性的观点:即使Transformer在概念上与RNN有所不同,但在某些情况下,仅包含解码器的Transformer实际上可以被视为一种无限多状态的RNN(MSRNN)——一种具有无限隐藏状态大小的RNN变体。

通过将预训练的Transformer转换为有限的MSRNN,我们可以通过固定其隐藏状态的大小来实现这一点。这种转换不仅揭示了Transformer在实践中常常表现为RNN的行为,而且还为缓解其最大的计算瓶颈之一——缓存大小提供了可能的解决方案。本研究提出了一种名为TOVA的新策略,它通过仅基于注意力分数来选择保留哪些令牌,相比于现有的缓存压缩技术,TOVA更为简单。实验结果表明,TOVA在多个长期任务中的表现超越了所有其他基线策略,同时与完整(无限)模型几乎持平,有时仅使用原始缓存大小的1/8。

我们的研究不仅重新定义了Transformer的理解,还为减少推理过程中的内存消耗提供了实际的方法,有望在硬件资源受限的情况下推广Transformer模型的使用。

本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。

「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。

传送门:

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf

论文标题、机构、论文链接和项目地址(如有)

论文标题:Transformers are Multi-State RNNs
机构:The Hebrew University of Jerusalem, FAIR, AI at Meta
论文解读链接:

https://www.saibomaliang.com/generate?session_id=210b194f-c5c4-4a1c-8d81-8ddae744aa4a

项目地址:未提供具体链接,但论文中提到公开发布了相关代码。

Transformer与RNN的联系:一种新的视角

1. Transformer的无限多状态RNN(MSRNN)理论

在对自然语言处理(NLP)模型的发展历程进行回顾时,我们发现Transformer模型(Vaswani et al., 2017)已经取代了循环神经网络(RNNs; Elman, 1990)成为了NLP领域的首选架构。尽管Transformer与RNN在概念上被认为有着显著的不同——Transformer能够直接访问序列中的每个标记,而RNN则通过维护先前输入的递归状态来处理信息——我们在本工作中展示了,仅包含解码器的Transformer实际上可以被概念化为无限多状态的RNN(MSRNN),这是一种具有无限隐藏状态大小的RNN变体。随着每个解码步骤中先前标记数量的增加,Transformer对应于具有无限状态数的MSRNN。

2. 将Transformer转化为有限MSRNN的方法

我们进一步展示了,通过限制每一步处理的标记数量,预训练的Transformer可以被压缩成有限的MSRNN。我们观察到,一些现有的Transformer缓存压缩技术可以被视为这种转换策略,并引入了一种新的策略,即TOVA,这种策略相比于这些策略更为简单。我们的实验表明,TOVA在多个长期任务上的表现超过了所有其他基线策略,同时与完整的(无限)模型几乎持平,在某些情况下仅使用原始缓存大小的1/8。

提出TOVA策略:简化的有限MSRNN压缩方法

1. TOVA策略的工作原理

TOVA策略基于一个简单的原则:仅根据它们的注意力分数来选择保留在多状态中的标记。在每个解码步骤中,我们考虑当前查询对所有当前多状态中的标记以及当前标记的softmax归一化注意力分数。得分最低的标记将被丢弃。这种策略相比于上述策略做出了更少的假设:它既不固定最近的标记窗口,也不偏好序列中早期的标记。我们的分析表明,尽管TOVA策略存在轻微的近期偏见,但大量的近期标记被丢弃,而一些初始标记在数千个解码步骤中被保留,表明它们对于成功解码确实很重要。

2. TOVA策略与现有方法的对比

我们的实验结果表明,TOVA策略在长期任务的评估中超越了所有现有策略,并且在多数情况下,使用1/8至1/4的多状态大小就能与无限MSRNN模型(即常规预训练的Transformer)的性能相媲美。此外,我们的分析还发现,并非所有最近的标记都是重要的,有些可以安全地丢弃。我们还强调了在序列中保留第一个标记的重要性,并突出了其他一些可能令人惊讶的重要标记,例如所有格名词。我们的结果揭示了Transformer解码器LLMs的行为;虽然它们被训练为无限MSRNNs,但它们在实践中通常表现为有限MSRNNs。我们的结果还具有实际的好处——我们提出的方法在推理过程中大幅度减少了内存消耗,导致LLM缓存大小减少了多达88%。

实验设置:评估压缩策略的性能

1. 长范围评估的三种类型

在评估压缩策略的性能时,我们采用了三种长范围评估类型:语言建模、长范围理解和长文本生成。语言建模任务使用PG-19测试集,该测试集包含平均长度为70k令牌的100本完整书籍。长范围理解任务则采用了ZeroSCROLLS基准测试中的两个测试集,分别关注长范围摘要和长范围问答。长文本生成任务则通过提示促使模型生成长篇故事,并使用GPT-4作为评估器,比较不同种子生成的故事质量。

2. 选用的Transformer LLM家族

实验中选用了三个最先进的Transformer LLM家族:LLaMA-2、Mistral和Yi,每个家族提供了约7B参数的版本进行评估。对于语言建模任务,使用了模型的原始版本。对于长范围理解任务,还考虑了三个经过微调的版本:LLaMA-2-chat、Mistral-Instruct和neural-chat,这些版本在特定指令任务中表现出色。最后,对于文本生成任务,使用了专门为故事生成微调的MythoLogic版本。

实验结果:TOVA策略的表现

1. 语言建模任务的结果

在语言建模任务中,TOVA策略在所有多状态大小中均优于其他策略,并且在使用1/8至1/4的上下文大小时,与完整上下文的顶线模型的结果相当(图3)。这表明TOVA策略在保留关键信息的同时,大幅减少了所需的上下文长度。

2. 长范围理解任务的结果

在长范围理解任务中,TOVA策略在所有多状态大小中一致地优于其他基线策略。在SQuALITY数据集上,使用1/8至1/4的完整上下文大小,TOVA的结果与顶线模型相差不到一个点(图4)。在QASPER基准测试上,尽管TOVA策略需要一半的完整多状态大小才能与顶线模型的结果相当,但它仍然优于其他基线策略(图5)。

3. 长文本生成任务的结果

在长文本生成任务中,限制多状态大小会导致生成的文本更短。然而,TOVA策略在多状态大小为1024时,能够保持与完整模型相同的平均故事长度。通过GPT-4对生成的故事进行评估,TOVA策略在与顶线模型的比较中获得了平均胜率(图6)。尽管评估长篇故事的质量具有挑战性,但TOVA策略在生成长文本方面的表现仍然与无限MSRNN模型相当。

综上所述,TOVA策略在各项任务中表现出色,特别是在使用远小于原始缓存大小的情况下,仍能与完整模型相媲美,显示出其在压缩Transformer LLM缓存方面的巨大潜力。

分析:哪些Token更重要?

在深入探讨Transformer模型的行为时,了解哪些Token在模型中扮演关键角色是至关重要的。本章节将分析保留和丢弃Token的趋势,以及特定Token的重要性。

1. 保留和丢弃Token的趋势

研究表明,并非所有最近的Token都是重要的,有些可以安全地从记忆中丢弃。此外,研究还显示了序列中第一个Token的重要性,并强调了其他一些意外重要的Token,例如所有格名词。这些发现揭示了Transformer解码器LLMs的行为;虽然它们被训练为无限MSRNNs,但在实践中它们通常表现为有限MSRNNs。这些结果还具有实际的好处,它们提出的方法大幅度减少了推理过程中的内存消耗,导致LLM缓存大小减少了多达88%。

2. 特定Token的重要性

通过分析TOVA策略保留的Token,我们发现,尽管大多数压缩策略(如Sec. 3.3中提到的)保留了最近的Token,TOVA策略却显示出了明显的窗口趋势,表明了最近Token对解码的重要性。然而,我们也观察到许多较旧的Token被保留下来。实际上,只有73-76%的Token是最近的,其余的是较旧的。这表明,尽管最近的Token很重要,但远远不够。重要的是,与之前手工制作的最近窗口不同,我们的方法自动识别了它。

此外,通过将每个Token映射到其词性标记(POS-tag),我们发现标点符号和其他特殊符号往往被保留。然而,我们还发现了其他倾向于保留更长时间的Token,例如所有格名词(POS)和专有名词(NNPS)。研究这些Token的作用是一个令人兴奋的研究方向,我们将在未来的工作中探讨。

讨论:Transformer作为有限MSRNN的行为

Transformer模型通常被视为与RNNs不同的架构,因为它们可以直接访问序列中的每个Token,而不是像RNNs那样维护前一个输入的重复状态。然而,最近的研究表明,仅解码器的Transformer实际上可以被概念化为具有无限隐藏状态大小的多状态RNNs(MSRNNs)。通过限制每一步处理的Token数量,Transformer可以被压缩成有限的MSRNNs。

本文介绍的TOVA策略,通过仅基于它们的注意力分数来选择保留哪些Token,表现出比现有策略更优越的性能。此外,我们的结果表明,在许多情况下,使用TOVA策略的有限MSRNNs在性能上与相应的无限MSRNNs相当,同时只需要1/8–1/4的多状态大小。值得注意的是,尽管Transformer没有被训练为这样,它们通常的功能类似于有限MSRNNs。

这些发现不仅揭示了Transformer的内部工作机制,以及它们与RNNs的联系,而且还具有实际价值——它们可以显著减少Transformer LLMs的缓存大小,从而可能增加它们被具有有限硬件访问的用户采用的可能性。

相关工作:Transformer、RNN和有限KV缓存

在自然语言处理(NLP)领域,Transformer模型自2017年由Vaswani等人提出以来,已经取代了循环神经网络(Recurrent Neural Networks, RNNs)成为了主流架构。与RNNs不同,Transformer模型能够直接访问序列中的每个token,而不是像RNNs那样维护一个反复出现的先前输入的状态。然而,最近的研究表明,仅包含解码器的Transformer(decoder-only transformers)实际上可以被概念化为具有无限隐藏状态大小的多状态RNNs(infinite multi-state RNNs, MSRNNs)。

1. Transformer与RNN的关系

在本项工作中,我们展示了解码器仅包含Transformer的自回归性与RNNs的核心原则——保留从一个步骤到下一个步骤的状态——是一致的。基于这一观察,我们正式将仅包含解码器的Transformer重新定义为MSRNNs的一种形式。重要的是,随着每个解码步骤之前的tokens数量的增长,Transformers对应于具有无限数量状态的MSRNNs。我们进一步展示了通过限制每个步骤处理的tokens数量,Transformers可以被压缩成有限的MSRNNs。

2. 有限KV缓存

在先前的工作中,已经提出了几种压缩策略,这些策略有效地限制了预训练基于Transformer的大型语言模型(LLMs)的容量。这些压缩策略通常被称为KV缓存技术,例如H2O策略和Window+i策略,它们通过聚合整个序列的注意力分数并保留得分最高的tokens来动态选择非窗口tokens。我们的定义将这些工作框定为将预训练的Transformers从无限转换为有限的MSRNNs。

结论:Transformer作为MSRNN的实践意义

我们的研究结果表明,尽管Transformer模型在理论上被训练为无限的MSRNNs,但在实践中它们通常表现为有限的MSRNNs。我们提出的方法TOVA(Token Omission Via Attention)在多个长期任务中的表现超过了所有现有策略,并且与完整的(无限)模型相比,性能几乎相同,而在某些情况下只使用了原始缓存大小的1/8。

我们的分析还发现,并非所有最近的tokens都需要保留在内存中,有些可以安全地丢弃。此外,我们还展示了保留序列中的第一个token的重要性,并强调了其他一些可能令人惊讶的重要tokens,如所有格名词。这些发现不仅揭示了Transformer解码器LLMs的行为,并且还具有实际价值——我们提出的方法大幅度减少了推理过程中的内存消耗,导致LLM缓存大小减少了多达88%。

总的来说,我们的工作不仅阐明了Transformers的内部工作原理及其与RNNs的联系,还具有实际应用价值,可以显著减少Transformer LLMs的内存占用,从而可能增加其在硬件资源有限的用户中的采用率。

本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。

传送门:

赛博马良——懂流量密码的新媒体AI员工定制平台

这篇关于2024 年1月12日最热NLP大模型论文:Transformers are Multi-State RNNs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/599061

相关文章

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

创新、引领、发展——SAMPE中国2024年会在京盛大开幕

绿树阴浓夏日长,在这个色彩缤纷的季节,SAMPE中国2024年会暨第十九届国际先进复合材料制品原材料、工装及工程应用展览会在中国国际展览中心(北京朝阳馆)隆重开幕。新老朋友共聚一堂,把酒话桑麻。 为期4天的国际学术会议以“先进复合材料,引领产业创新与可持续化发展”为主题,设立了34个主题分会场,其中包括了可持续化会场、国际大学生会场、中法复合材料制造技术峰会三个国际会场和女科技工作者委员会沙龙,

iptables(7)扩展模块state

简介         前面文章我们已经介绍了一些扩展模块,如iprange、string、time、connlimit、limit,还有扩展匹配条件如--tcp-flags、icmp。这篇文章我们介绍state扩展模块  state          在 iptables 的上下文中,--state 选项并不是直接关联于一个扩展模块,而是与 iptables 的 state 匹配机制相关,特

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

OpenCompass:大模型测评工具

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 大模型应用向开发路径:AI代理工作流大模型应用开发实用开源项目汇总大模型问答项目问答性能评估方法大模型数据侧总结大模型token等基本概念及参数和内存的关系大模型应用开发-华为大模型生态规划从零开始的LLaMA-Factor

模型压缩综述

https://www.cnblogs.com/shixiangwan/p/9015010.html

AI赋能天气:微软研究院发布首个大规模大气基础模型Aurora

编者按:气候变化日益加剧,高温、洪水、干旱,频率和强度不断增加的全球极端天气给整个人类社会都带来了难以估计的影响。这给现有的天气预测模型提出了更高的要求——这些模型要更准确地预测极端天气变化,为政府、企业和公众提供更可靠的信息,以便做出及时的准备和响应。为了应对这一挑战,微软研究院开发了首个大规模大气基础模型 Aurora,其超高的预测准确率、效率及计算速度,实现了目前最先进天气预测系统性能的显著