snapkv专题

SnapKV: LLM Knows What You are Looking for Before Generation（实现超长上下文的压缩方法无需训练）

地址 https://arxiv.org/pdf/2404.14469 核心这篇论文介绍了一种名为SnapKV的创新方法，旨在提高大型语言模型处理长上下文时的效率和内存利用率。主要贡献包括： 1. 设计实验探索在输出生成过程中注意力特征的模式，发现注意力分配具有一致性，可以提取重要信息。 2. 提出了SnapKV算法，利用观察窗口和投票机制选择每个注意力头的重要键值对，并使用池化进行细粒度