LLM - GPT(Decoder Only) 类模型的 KV Cache 公式与原理教程

本文主要是介绍LLM - GPT(Decoder Only) 类模型的 KV Cache 公式与原理教程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/141605718

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

在 GPT 类模型中，KV Cache (键值缓存) 是用于优化推理效率的重要技术，基本思想是通过缓存先前计算的键(Key) 和值(Value)，避免在推理过程中，重复计算 Mask 的注意力(Attention) 矩阵，从而加速生成过程。

1. 公式

矩阵乘法的基础性质：

$\cdot B = \begin{bmatrix} A_{1} & A_{2} & \dots & A_{n} \end{bmatrix} \cdot \begin{bmatrix} B_{1} \\ B_{2} \\ \vdots \\ B_{n} \end{bmatrix} = A_{1}B_{1} + A_{2}B_{2} + \dots + A_{n}B_{n}$

其中 $A_{i}$ 是 $A$ 的列向量， $B_{i}$ 是 $B$ 的行向量，也就是说相同维度的向量相乘，可拆解成行向量乘以列向量，即 $A$ 有 $n$ 列， $B$ 有 $n$ 行。如图：

matrix

例如：基础的矩阵乘法：

$\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}, \quad B = \begin{bmatrix} 5 & 6 \\ 7 & 8 \end{bmatrix} \\ C = \begin{bmatrix} 1*5 + 2*7 & 1*6 + 2*8 \\ 3*5 + 4*7 & 3*6 + 4*8 \end{bmatrix} = \begin{bmatrix} 19 & 22 \\ 43 & 50 \end{bmatrix}$

也可以写成，行列向量相乘的形式，即 A 拆分出多个行向量，B 拆分出多个列向量，即：

$\begin{bmatrix} 1 \\ 3 \end{bmatrix} \cdot \begin{bmatrix} 5 & 6 \end{bmatrix} + \begin{bmatrix} 2 \\ 4 \end{bmatrix} \cdot \begin{bmatrix} 7 & 8 \end{bmatrix}= \begin{bmatrix} 1*5 & 1*6 \\ 3*5 & 3*6 \end{bmatrix} + \begin{bmatrix} 2*7 & 2*8 \\ 4*7 & 4*8 \end{bmatrix}$
$=\begin{bmatrix} 1*5 + 2*7 & 1*6 + 2*8 \\ 3*5 + 4*7 & 3*6 + 4*8 \end{bmatrix} = \begin{bmatrix} 19 & 22 \\ 43 & 50 \end{bmatrix}$

进一步拆解：

$\cdot B = A_{1}B_{1} + A_{2}B_{2} + \dots + A_{n}B_{n} \\ = \begin{bmatrix} a_{1,1}B_{1} \\ a_{2,1}B_{2} \\ \vdots \\ a_{m,1}B_{n} \end{bmatrix} + \begin{bmatrix} a_{1,2}B_{1} \\ a_{2,2}B_{2} \\ \vdots \\ a_{m,2}B_{n} \end{bmatrix} + \cdots + \begin{bmatrix} a_{1,n}B_{1} \\ a_{2,n}B_{2} \\ \vdots \\ a_{m,n}B_{n} \end{bmatrix} \\ = \begin{bmatrix} a_{1,1}B_{1} + a_{1,2}B_{1} + \cdots + a_{1,n}B_{1} \\ a_{2,1}B_{2} + a_{2,2}B_{2} + \cdots + a_{2,n}B_{2} \\ \cdots \\ a_{m,1}B_{n} + a_{m,2}B_{n} + \cdots + a_{m,n}B_{n} \end{bmatrix}$

基础的矩阵乘法的另一种形式：

$C=\begin{bmatrix} 1 \\ 3 \end{bmatrix} \cdot \begin{bmatrix} 5,6 \end{bmatrix} + \begin{bmatrix} 2 \\ 4 \end{bmatrix} \cdot \begin{bmatrix} 7,8 \end{bmatrix}$
$\begin{bmatrix} 1*[5&6] \\ 3*[5&6] \end{bmatrix} + \begin{bmatrix} 2*[7&8] \\ 4*[7&8] \end{bmatrix}$
$\begin{bmatrix} 1*5 & 1*6 \\ 3*5 & 3*6 \end{bmatrix} + \begin{bmatrix} 2*7 & 2*8 \\ 4*7 & 4*8 \end{bmatrix} = \begin{bmatrix} 19 & 22 \\ 43 & 50 \end{bmatrix}$

如果 $A$ 是下三角矩阵，即包含 Mask 信息，Decoder 无法观察到之后的推理部分，则 $\cdot B$ ，输出：

$\cdot B = \left[ \begin{array}{llll} a_{1,1}B_{1}\\ a_{2,1}B_{2} + a_{2,2}B_{2}\\ \cdots \\ a_{m,1}B_{n} + a_{m,2}B_{n} + \cdots + a_{m,n}B_{n} \end{array} \right]$

2. 推理

第1步：

在 Decoder 解码过程中，只关注 Transformer 的自注意力(Self-Attention)，输入第 1 个 Token，将 Token 转换成 输入特征 $Input_{1}=[1,d_{emb}]$ ，暂时忽略 batch_size， $d_{emb}$ 表示 Embedding Size。

输入特征 $Input_{0}=[1,d_{emb}]$ ，乘以权重 $W=[d_{emb}, 3*d_{emb}]$ (已训练完成，值是固定的)，输出维度 $1, 3*d_{emb}]$ ，即作为 Q\K\V，每个向量 $1,d_{emb}]$ 。
- $Q_{1}=[1,d_{emb}]$ 、 $K_{1}=[1,d_{emb}]$ 、 $V_{1}=[1,d_{emd}]$ ，只与输入特征 $Input_{0}$ 的 Embedding 相关。
根据 Self-Attention 的公式，忽略 $\sqrt{d}$ ，只有1维，mask 不起作用，即
$Att(Q,K,V)=softmax(QK^{\top}+mask)*V \\ Att_{1}(Q,K,V)=softmax(Q_{1}K_{1}^{\top})V_{1} \\ 其中 \ softmax(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}$
$Att_{0}$ ( $1,d_{emb}]$ ) 经过一系列推理，最后输出 $1, d_{v}]$ ， $d_{v}$ 是全部词元 Token 的数量，根据概率值即可获得最后的 Token。

第 2 步：

将第 1 步输出的 Token 转换成 $1,d_{emb}]$ ，与第 1 步组合至一起，即 输入特征 $Input_{1}=[2,d_{emb}]$

输入特征 $Input_{1}=[2,d_{emb}]$ ，乘以权重 $W=[d_{emb}, 3*d_{emb}]$ ，权重是固定的，因此只需要计算第 2 个输入的特征 $1,d_{emb}]$ ，第 1 个不需要计算，也就是说 Q\K\V 的维度是 $2, d_{emb}]$ ，只需计算一次即可，剩余的可以直接 $co n c a t$ 到一起。
根据 Self-Attention 的公式，忽略 $\sqrt{d}$ ，注意第1行，已经计算，第2行，需要使用 $Q_{2}$ 、 $K_{2}$ 、 $V_{2}$ ，进行计算，即：
$Att_{2}(Q,K,V) = softmax(QK^{\top}+mask)*V \\ softmax(\left[ \begin{array}{ll} Q_{1}K_{1}^{\top}\\ Q_{2}K_{1}^{\top} + Q_{2}K_{2}^{\top}\\ \end{array} \right]) \cdot \begin{bmatrix} V_{1} \\ V_{2} \\ \end{bmatrix} \\= \left[ \begin{array}{ll} softmax(Q_{1}K_{1}^{\top})V_{1}\\ softmax(Q_{2}K_{1}^{\top})V_{1} + softmax(Q_{2}K_{2}^{\top})V_{2}\\ \end{array} \right] \\ = \left[ \begin{array}{} Att_{1}(Q,K,V) \\ softmax(Q_{2}K_{1}^{\top})V_{1} + softmax(Q_{2}K_{2}^{\top})V_{2}\\ \end{array} \right]$
KV 都是成对出现的，如果缓存 KV，则可以加快推理速度。

第 3 步：重复进行。

3. 缓存占用

关于 Llama3 的 KV Cache 源码，参考 model.py：

xq = xq.view(bsz, seqlen, self.n_local_heads, self.head_dim)
xk = xk.view(bsz, seqlen, self.n_local_kv_heads, self.head_dim)
xv = xv.view(bsz, seqlen, self.n_local_kv_heads, self.head_dim)xq, xk = apply_rotary_emb(xq, xk, freqs_cis=freqs_cis)self.cache_k = self.cache_k.to(xq)
self.cache_v = self.cache_v.to(xq)self.cache_k[:bsz, start_pos : start_pos + seqlen] = xk
self.cache_v[:bsz, start_pos : start_pos + seqlen] = xvkeys = self.cache_k[:bsz, : start_pos + seqlen]
values = self.cache_v[:bsz, : start_pos + seqlen]

关于 KV 的缓存内存占用：

相关参数 batch_size=32，head=32，layer=32，dim_size=4096，seq_length=2048，float32(4个字节)类，计算 KV cache 的缓存占用：
$M=2*N_{bs}*(N_{dim}/N_{head}*N_{head})*N_{layer}*N_{seq}*4 \\ =2*32*4096*32*2048*4/1024/1024/1024=64G$
也就是说 head 数量无关，因为维度除以 Head 再乘以 Head。Llama3 使用 GQA (Grouped Query Attention) 分组查询注意力机制，降低 4 倍的 KV Cache，head=32，kv_head=8，即 scale=head/kv_head=4。