APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding

本文主要是介绍APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型语言模型（LLMs）在部署时面临的效率问题。具体来说，它针对的是LLMs在生成文本时采用的自回归（auto-regressive）解码过程，这一过程在实现高效服务方面存在挑战。论文提出了一种名为Auto-Parallel Auto-Regressive (APAR)的解码策略，旨在通过并行化LLMs的生成过程来提高推理效率，减少生成步骤，降低内存消耗，增加吞吐量，并减少响应延迟。

Q: 有哪些相关研究？

A: 这篇论文提到了以下几类相关研究：

优化计算：包括对操作符（如矩阵乘法）和计算图的优化，以及模型压缩技术（如量化和剪枝）。
改善并行性：涉及调度策略（如动态批处理和分页注意力机制）以提高最大生成吞吐量，以及探索并行解码（如多解码头）和非自回归生成方法。
推理加速：包括使用外部分类器和在不同阶段重新计算KV缓存的提示方法，以及通过提示生成响应骨架然后并行扩展每个点的方法。

论文提出的APAR方法与这些相关工作相比，不需要对操作符或模型架构进行修改，而是通过采用基于树的注意力结构来减少计算。APAR可以与上述方法结合使用，以进一步提高推理效率。

Q: 论文如何解决这个问题？

A: 论文提出了一种名为Auto-Parallel Auto-Regressive (APAR)的解码策略来解决大型语言模型（LLMs）在高效部署时面临的挑战。APAR的关键思想是利用LLMs对文本结构的理解，通过在包含层次结构的通用领域数据上进行指令微调，使LLMs能够独立规划其生成过程，并执行自并行自回归（APAR）生成。这种方法将传统的线性生成转换为可并行的段落树结构，从而实现了以下几个目标：

提高解码并行性：通过检测潜在的可并行生成部分并发出多个生成线程，APAR显著减少了生成步骤。
减少注意力跨度：通过基于树的注意力机制，APAR减少了在生成过程中的注意力计算。
早期释放消耗的KV缓存内存：在生成过程中，一旦一个分叉序列（即一个生成线程）完成生成，就可以立即释放仅属于该分叉序列的KV缓存，而剩余部分的生成可以继续进行。

这些改进使得APAR在内存受限场景下能够实现高达2倍的速度提升，并且当与投机解码策略（如Medusa）结合使用时，速度提升可以达到4倍。此外，APAR还减少了在高吞吐量场景下的KV缓存消耗和注意力计算，与最先进的服务框架相比，吞吐量增加了20-70%，延迟减少了20-35%。重要的是，APAR在保持生成质量的同时提高了解码速度和效率。

Q: 论文做了哪些实验？

A: 论文进行了以下实验来评估APAR方法的性能：

数据预处理：使用了一个开源版本的ShareGPT数据集作为指令语料库，并根据预定义的规则提取了结构化数据，包括有序列表和段落。
实验设置：在Vicuna模型系列（vicuna-v1.3-{7B,13B}）上应用APAR微调，产生了APAR-{7B,13B}模型。使用了三种不同的实现设置进行评估：
- Vanilla-APAR：直接使用transformers库实现的APAR。
- Medusa-APAR：结合了Medusa（一种开源的投机解码算法）实现的APAR。
- Batched-APAR：结合了vLLM（一种高效且内存高效的推理引擎，使用分页注意力机制）实现的APAR。
训练设置：在结构化（有序列表和段落）和非结构化数据上进行微调，使用批大小为128，学习率为2e-5，微调2000步。之后，使用相同的数据训练了2个Medusa头，学习率为1e-3，训练2000步。
评估数据集：使用了Vicuna Bench和MT Bench作为评估框架，以及一个由ShareGPT数据集采样的1000个用户查询组成的APAR测试集。
结果：
- 在内存受限场景下，Vanilla-APAR在Vicuna Bench上实现了2倍的平均速度提升，Medusa-APAR结合投机解码策略实现了更高的加速效果。
- 在高吞吐量场景下，Batched-APAR在仅使用20%的KV缓存的情况下超过了原始模型的最大吞吐量，并且在相似内存使用情况下，吞吐量增加了20%至70%。同时，Batched-APAR在计算受限场景下也显著减少了平均延迟。
生成质量评估：使用MT Bench和Vicuna Bench评估了APAR模型的生成质量，结果显示APAR模型的生成质量与原始模型相比变化不大，整体质量变化在±2%范围内。