regressive专题

APAR: LLMs Can Do Auto-Parallel Auto-Regressive Decoding

Q: 这篇论文试图解决什么问题? A: 这篇论文试图解决大型语言模型(LLMs)在部署时面临的效率问题。具体来说,它针对的是LLMs在生成文本时采用的自回归(auto-regressive)解码过程,这一过程在实现高效服务方面存在挑战。论文提出了一种名为Auto-Parallel Auto-Regressive (APAR)的解码策略,旨在通过并行化LLMs的生成过程来提高推理效率,减少生成