regressive专题

APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding

Q: 这篇论文试图解决什么问题？ A: 这篇论文试图解决大型语言模型（LLMs）在部署时面临的效率问题。具体来说，它针对的是LLMs在生成文本时采用的自回归（auto-regressive）解码过程，这一过程在实现高效服务方面存在挑战。论文提出了一种名为Auto-Parallel Auto-Regressive (APAR)的解码策略，旨在通过并行化LLMs的生成过程来提高推理效率，减少生成