2024 年1月12日最热NLP大模型论文：Transformers are Multi-State RNNs

本文主要是介绍2024 年1月12日最热NLP大模型论文：Transformers are Multi-State RNNs，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

揭秘Transformer的无限可能，Meta研究发现Transformer其实是多状态RNN

引言：重新定义Transformer的视角

在自然语言处理（NLP）的领域，Transformer架构自2017年提出以来，已经成为了一种主流的模型，它在多种任务中取得了前所未有的成功。与此同时，循环神经网络（RNN）这一曾经的主流架构逐渐被边缘化。然而，本文的研究提出了一个颠覆性的观点：即使Transformer在概念上与RNN有所不同，但在某些情况下，仅包含解码器的Transformer实际上可以被视为一种无限多状态的RNN（MSRNN）——一种具有无限隐藏状态大小的RNN变体。

通过将预训练的Transformer转换为有限的MSRNN，我们可以通过固定其隐藏状态的大小来实现这一点。这种转换不仅揭示了Transformer在实践中常常表现为RNN的行为，而且还为缓解其最大的计算瓶颈之一——缓存大小提供了可能的解决方案。本研究提出了一种名为TOVA的新策略，它通过仅基于注意力分数来选择保留哪些令牌，相比于现有的缓存压缩技术，TOVA更为简单。实验结果表明，TOVA在多个长期任务中的表现超越了所有其他基线策略，同时与完整（无限）模型几乎持平，有时仅使用原始缓存大小的1/8。

我们的研究不仅重新定义了Transformer的理解，还为减少推理过程中的内存消耗提供了实际的方法，有望在硬件资源受限的情况下推广Transformer模型的使用。

本文内容由 赛博马良「AI论文解读达人」 智能体生成，人工整理排版。

「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。

传送门：

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf

论文标题、机构、论文链接和项目地址(如有)

论文标题：Transformers are Multi-State RNNs
机构：The Hebrew University of Jerusalem, FAIR, AI at Meta
论文解读链接：

https://www.saibomaliang.com/generate?session_id=210b194f-c5c4-4a1c-8d81-8ddae744aa4a

项目地址：未提供具体链接，但论文中提到公开发布了相关代码。

Transformer与RNN的联系：一种新的视角

1. Transformer的无限多状态RNN（MSRNN）理论

在对自然语言处理（NLP）模型的发展历程进行回顾时，我们发现Transformer模型（Vaswani et al., 2017）已经取代了循环神经网络（RNNs; Elman, 1990）成为了NLP领域的首选架构。尽管Transformer与RNN在概念上被认为有着显著的不同——Transformer能够直接访问序列中的每个标记，而RNN则通过维护先前输入的递归状态来处理信息——我们在本工作中展示了，仅包含解码器的Transformer实际上可以被概念化为无限多状态的RNN（MSRNN），这是一种具有无限隐藏状态大小的RNN变体。随着每个解码步骤中先前标记数量的增加，Transformer对应于具有无限状态数的MSRNN。

2. 将Transformer转化为有限MSRNN的方法

我们进一步展示了，通过限制每一步处理的标记数量，预训练的Transformer可以被压缩成有限的MSRNN。我们观察到，一些现有的Transformer缓存压缩技术可以被视为这种转换策略，并引入了一种新的策略，即TOVA，这种策略相比于这些策略更为简单。我们的实验表明，TOVA在多个长期任务上的表现超过了所有其他基线策略，同时与完整的（无限）模型几乎持平，在某些情况下仅使用原始缓存大小的1/8。

提出TOVA策略：简化的有限MSRNN压缩方法

1. TOVA策略的工作原理

TOVA策略基于一个简单的原则：仅根据它们的注意力分数来选择保留在多状态中的标记。在每个解码步骤中，我们考虑当前查询对所有当前多状态中的标记以及当前标记的softmax归一化注意力分数。得分最低的标记将被丢弃。这种策略相比于上述策略做出了更少的假设：它既不固定最近的标记窗口，也不偏好序列中早期的标记。我们的分析表明，尽管TOVA策略存在轻微的近期偏见，但大量的近期标记被丢弃，而一些初始标记在数千个解码步骤中被保留，表明它们对于成功解码确实很重要。

2. TOVA策略与现有方法的对比

我们的实验结果表明，TOVA策略在长期任务的评估中超越了所有现有策略，并且在多数情况下，使用1/8至1/4的多状态大小就能与无限MSRNN模型（即常规预训练的Transformer）的性能相媲美。此外，我们的分析还发现，并非所有最近的标记都是重要的，有些可以安全地丢弃。我们还强调了在序列中保留第一个标记的重要性，并突出了其他一些可能令人惊讶的重要标记，例如所有格名词。我们的结果揭示了Transformer解码器LLMs的行为；虽然它们被训练为无限MSRNNs，但它们在实践中通常表现为有限MSRNNs。我们的结果还具有实际的好处——我们提出的方法在推理过程中大幅度减少了内存消耗，导致LLM缓存大小减少了多达88%。

实验设置：评估压缩策略的性能

1. 长范围评估的三种类型

在评估压缩策略的性能时，我们采用了三种长范围评估类型：语言建模、长范围理解和长文本生成。语言建模任务使用PG-19测试集，该测试集包含平均长度为70k令牌的100本完整书籍。长范围理解任务则采用了ZeroSCROLLS基准测试中的两个测试集，分别关注长范围摘要和长范围问答。长文本生成任务则通过提示促使模型生成长篇故事，并使用GPT-4作为评估器，比较不同种子生成的故事质量。

2. 选用的Transformer LLM家族

实验中选用了三个最先进的Transformer LLM家族：LLaMA-2、Mistral和Yi，每个家族提供了约7B参数的版本进行评估。对于语言建模任务，使用了模型的原始版本。对于长范围理解任务，还考虑了三个经过微调的版本：LLaMA-2-chat、Mistral-Instruct和neural-chat，这些版本在特定指令任务中表现出色。最后，对于文本生成任务，使用了专门为故事生成微调的MythoLogic版本。

实验结果：TOVA策略的表现

1. 语言建模任务的结果

在语言建模任务中，TOVA策略在所有多状态大小中均优于其他策略，并且在使用1/8至1/4的上下文大小时，与完整上下文的顶线模型的结果相当（图3）。这表明TOVA策略在保留关键信息的同时，大幅减少了所需的上下文长度。

2. 长范围理解任务的结果

在长范围理解任务中，TOVA策略在所有多状态大小中一致地优于其他基线策略。在SQuALITY数据集上，使用1/8至1/4的完整上下文大小，TOVA的结果与顶线模型相差不到一个点（图4）。在QASPER基准测试上，尽管TOVA策略需要一半的完整多状态大小才能与顶线模型的结果相当，但它仍然优于其他基线策略（图5）。

3. 长文本生成任务的结果

在长文本生成任务中，限制多状态大小会导致生成的文本更短。然而，TOVA策略在多状态大小为1024时，能够保持与完整模型相同的平均故事长度。通过GPT-4对生成的故事进行评估，TOVA策略在与顶线模型的比较中获得了平均胜率（图6）。尽管评估长篇故事的质量具有挑战性，但TOVA策略在生成长文本方面的表现仍然与无限MSRNN模型相当。

综上所述，TOVA策略在各项任务中表现出色，特别是在使用远小于原始缓存大小的情况下，仍能与完整模型相媲美，显示出其在压缩Transformer LLM缓存方面的巨大潜力。

分析：哪些Token更重要？

在深入探讨Transformer模型的行为时，了解哪些Token在模型中扮演关键角色是至关重要的。本章节将分析保留和丢弃Token的趋势，以及特定Token的重要性。

1. 保留和丢弃Token的趋势

研究表明，并非所有最近的Token都是重要的，有些可以安全地从记忆中丢弃。此外，研究还显示了序列中第一个Token的重要性，并强调了其他一些意外重要的Token，例如所有格名词。这些发现揭示了Transformer解码器LLMs的行为；虽然它们被训练为无限MSRNNs，但在实践中它们通常表现为有限MSRNNs。这些结果还具有实际的好处，它们提出的方法大幅度减少了推理过程中的内存消耗，导致LLM缓存大小减少了多达88%。

2. 特定Token的重要性

通过分析TOVA策略保留的Token，我们发现，尽管大多数压缩策略（如Sec. 3.3中提到的）保留了最近的Token，TOVA策略却显示出了明显的窗口趋势，表明了最近Token对解码的重要性。然而，我们也观察到许多较旧的Token被保留下来。实际上，只有73-76%的Token是最近的，其余的是较旧的。这表明，尽管最近的Token很重要，但远远不够。重要的是，与之前手工制作的最近窗口不同，我们的方法自动识别了它。

此外，通过将每个Token映射到其词性标记（POS-tag），我们发现标点符号和其他特殊符号往往被保留。然而，我们还发现了其他倾向于保留更长时间的Token，例如所有格名词（POS）和专有名词（NNPS）。研究这些Token的作用是一个令人兴奋的研究方向，我们将在未来的工作中探讨。

讨论：Transformer作为有限MSRNN的行为

Transformer模型通常被视为与RNNs不同的架构，因为它们可以直接访问序列中的每个Token，而不是像RNNs那样维护前一个输入的重复状态。然而，最近的研究表明，仅解码器的Transformer实际上可以被概念化为具有无限隐藏状态大小的多状态RNNs（MSRNNs）。通过限制每一步处理的Token数量，Transformer可以被压缩成有限的MSRNNs。

本文介绍的TOVA策略，通过仅基于它们的注意力分数来选择保留哪些Token，表现出比现有策略更优越的性能。此外，我们的结果表明，在许多情况下，使用TOVA策略的有限MSRNNs在性能上与相应的无限MSRNNs相当，同时只需要1/8–1/4的多状态大小。值得注意的是，尽管Transformer没有被训练为这样，它们通常的功能类似于有限MSRNNs。

这些发现不仅揭示了Transformer的内部工作机制，以及它们与RNNs的联系，而且还具有实际价值——它们可以显著减少Transformer LLMs的缓存大小，从而可能增加它们被具有有限硬件访问的用户采用的可能性。

结论：Transformer作为MSRNN的实践意义

我们的研究结果表明，尽管Transformer模型在理论上被训练为无限的MSRNNs，但在实践中它们通常表现为有限的MSRNNs。我们提出的方法TOVA（Token Omission Via Attention）在多个长期任务中的表现超过了所有现有策略，并且与完整的（无限）模型相比，性能几乎相同，而在某些情况下只使用了原始缓存大小的1/8。

我们的分析还发现，并非所有最近的tokens都需要保留在内存中，有些可以安全地丢弃。此外，我们还展示了保留序列中的第一个token的重要性，并强调了其他一些可能令人惊讶的重要tokens，如所有格名词。这些发现不仅揭示了Transformer解码器LLMs的行为，并且还具有实际价值——我们提出的方法大幅度减少了推理过程中的内存消耗，导致LLM缓存大小减少了多达88%。

总的来说，我们的工作不仅阐明了Transformers的内部工作原理及其与RNNs的联系，还具有实际应用价值，可以显著减少Transformer LLMs的内存占用，从而可能增加其在硬件资源有限的用户中的采用率。

本文内容由赛博马良「AI论文解读达人」智能体生成，人工整理排版。