浅析RoPE旋转位置编码的远程衰减特性

2023-12-21 03:36

本文主要是介绍浅析RoPE旋转位置编码的远程衰减特性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

为什么 θ i \theta_i θi的取值会造成远程衰减性

旋转位置编码的出发点为:通过绝对位置编码的方式实现相对位置编码。

对词向量 q \boldsymbol{q} q添加绝对位置信息 m m m,希望找到一种函数 f f f,使得:
< f ( q , m ) , f ( k , n ) > = g ( q , k , m − n ) <f(\boldsymbol{q}, m), f(\boldsymbol{k}, n)> = g(\boldsymbol{q}, \boldsymbol{k}, m - n) <f(q,m),f(k,n)>=g(q,k,mn)
假设词向量是二维的,借用复数来进行求解(具体求解过程参考:https://spaces.ac.cn/archives/8265),最终得到一种可行解:
f ( q , m ) = q e i m θ = ( c o s m θ − s i n m θ s i n m θ c o s m θ ) ( q 0 q 1 ) \begin{align} f(\boldsymbol{q}, m) &= \boldsymbol{q} e^{im \theta} \\ &= \left(\begin{matrix} cos\ m\theta& -sin\ m\theta\\ sin\ m\theta& cos\ m\theta \end{matrix} \right) \left(\begin{array}{c} q_0\\ q_1 \end{array} \right) \end{align} f(q,m)=qeimθ=(cos mθsin mθsin mθcos mθ)(q0q1)
扩展到多维:

f ( q , m ) = R m q f(\boldsymbol{q}, m) = \boldsymbol{R}_m \boldsymbol{q} f(q,m)=Rmq
R m = ( c o s m θ 0 − s i n m θ 0 0 0 ⋯ 0 0 s i n m θ 0 c o s m θ 0 0 0 ⋯ 0 0 0 0 c o s m θ 1 − s i n m θ 1 ⋯ 0 0 0 0 s i n m θ 1 c o s m θ 1 ⋯ 0 0 ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ 0 0 0 0 ⋯ c o s m θ d / 2 − 1 − s i n m θ d / 2 − 1 0 0 0 0 ⋯ s i n m θ d / 2 − 1 c o s m θ d / 2 − 1 ) \boldsymbol{R}_m = \left(\begin{matrix} cos\ m\theta_0& -sin\ m\theta_0& 0& 0& \cdots& 0& 0\\ sin\ m\theta_0& cos\ m\theta_0& 0& 0& \cdots& 0& 0\\ 0& 0& cos\ m\theta_1& -sin\ m\theta_1& \cdots& 0& 0\\ 0& 0& sin\ m\theta_1& cos\ m\theta_1& \cdots& 0& 0\\ \vdots& \vdots& \vdots& \vdots& \ddots& \vdots& \vdots\\ 0& 0& 0& 0& \cdots& cos\ m\theta_{d/2 - 1}& -sin\ m\theta_{d/2-1}\\ 0& 0& 0& 0& \cdots& sin\ m\theta_{d/2 - 1}& cos\ m\theta_{d/2-1}\\ \end{matrix}\right) Rm= cos mθ0sin mθ00000sin mθ0cos mθ0000000cos mθ1sin mθ10000sin mθ1cos mθ1000000cos mθd/21sin mθd/210000sin mθd/21cos mθd/21
相当于左乘一个旋转矩阵,或者说高维向量,每两维一组,分别旋转一个角度,且不改变模长。

显然, ( R m q ) T ( R n k ) = q T R m T R n k = q T R n − m k (\boldsymbol{R}_m \boldsymbol{q})^{T} (\boldsymbol{R}_n \boldsymbol{k})= \boldsymbol{q}^T \boldsymbol{R}_m^T \boldsymbol{R}_n \boldsymbol{k} = \boldsymbol{q}^T \boldsymbol{R}_{n-m} \boldsymbol{k} (Rmq)T(Rnk)=qTRmTRnk=qTRnmk,这样Attention就包含相对位置信息了。


下面分析为什么 θ i \theta_i θi的取值会造成远程衰减性

远程衰减性指的是,对于两个词向量,如果两者相对距离较近,那么它们的注意力分数应该偏高,反之应该偏低。

假设 q \boldsymbol{q} q k \boldsymbol{k} k均为ones向量,则 ( R m q ) T ( R n k ) = q T R n − m k = 2 ∑ i = 0 d / 2 − 1 c o s ( n − m ) θ i (\boldsymbol{R}_m \boldsymbol{q})^{T} (\boldsymbol{R}_n \boldsymbol{k})= \boldsymbol{q}^T \boldsymbol{R}_{n-m} \boldsymbol{k} = 2\sum_{i=0}^{d/2-1} cos\ (n-m)\theta_i (Rmq)T(Rnk)=qTRnmk=2i=0d/21cos (nm)θi,设相对距离 n − m n-m nm x x x,则相对距离为 x x x的向量之间注意力得分:
g ( x ) = 2 ∑ i = 0 d / 2 − 1 c o s x θ i g(x) = 2\sum_{i=0}^{d/2-1} cos\ x\theta_i g(x)=2i=0d/21cos xθi
如果任意 θ i = 0 \theta_i=0 θi=0,则 g ( x ) = d g(x)=d g(x)=d,无论相对距离多大,注意力得分都相等

如果任意 θ i = 1 \theta_i=1 θi=1,则 g ( x ) = d c o s x g(x)=d\ cos\ x g(x)=d cos x,随着相对距离增大,注意力得分呈周期性变化,但不会震荡衰减:


而作者在 θ i \theta_i θi的选择上,沿用了Sinusoidal位置编码的方案,即 θ i = 1000 0 − 2 i / d \theta_i=10000^{-2i/d} θi=100002i/d,它会带来一定的远程衰减性

每个 θ i \theta_i θi c o s x θ i cos\ x\theta_i cos xθi的周期大小 T i T_i Ti等于 2 π θ i = 2 π 1000 0 − 2 i / d = 2 π ∗ 1 0 8 i / d \frac{2\pi}{\theta_i} = \frac{2\pi}{10000^{-2i/d}} = 2\pi*10^{8i/d} θi2π=100002i/d2π=2π108i/d,所以 i i i越大, T i T_i Ti越大,最小周期为 T 0 = 2 π T_0 = 2\pi T0=2π,最大周期为 T d / 2 − 1 = 2 π ∗ 1 0 ( 4 − 8 d ) T_{d/2-1} = 2\pi*10^{(4-\frac{8}{d})} Td/21=2π10(4d8)

如果对于所有的 x x x x < 1 4 T d / 2 − 1 = π 2 ∗ 1 0 ( 4 − 8 d ) x<\frac{1}{4}T_{d/2-1}=\frac{\pi}{2}*10^{(4-\frac{8}{d})} x<41Td/21=2π10(4d8),也就是说, c o s x θ d / 2 − 1 cos\ x\theta_{d/2-1} cos xθd/21处于单调递减区间(下方的蓝色区间)

由于前面的 c o s x θ i cos x\theta_i cosxθi呈周期变化,而周期变化的函数 + 单调递减的函数 = 震荡递减的函数。因此,注意力得分 g ( x ) g(x) g(x)随着相对距离 x x x的增大而震荡减小。


比如在LLaMA中, d = 4096 d=4096 d=4096 1 4 T d / 2 − 1 \frac{1}{4}T_{d/2-1} 41Td/21近似于 1 0 4 10^4 104,由于实际应用中,最大序列长度一般不会大于 1 0 4 10^4 104,所以相对距离 x < 1 4 T d / 2 − 1 x<\frac{1}{4}T_{d/2-1} x<41Td/21一般是成立的,当然,也可以增大 θ i = 1000 0 − 2 i / d \theta_i=10000^{-2i/d} θi=100002i/d中的10000,这样 T d / 2 − 1 T_{d/2-1} Td/21会变得更大。


d = 4 d=4 d=4时,最大周期 T d / 2 − 1 T_{d/2-1} Td/21是628,下面的示例 x x x会超过 1 4 T d / 2 − 1 \frac{1}{4}T_{d/2-1} 41Td/21,因此 g ( x ) g(x) g(x)呈周期性,并不是震荡减小

d = 256 d=256 d=256时,下面的示例 x x x不超过 1 4 T d / 2 − 1 = 14617 \frac{1}{4}T_{d/2-1}=14617 41Td/21=14617,因此震荡减小。

这篇关于浅析RoPE旋转位置编码的远程衰减特性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/518509

相关文章

浅析Spring如何控制Bean的加载顺序

《浅析Spring如何控制Bean的加载顺序》在大多数情况下,我们不需要手动控制Bean的加载顺序,因为Spring的IoC容器足够智能,但在某些特殊场景下,这种隐式的依赖关系可能不存在,下面我们就来... 目录核心原则:依赖驱动加载手动控制 Bean 加载顺序的方法方法 1:使用@DependsOn(最直

从入门到精通C++11 <chrono> 库特性

《从入门到精通C++11<chrono>库特性》chrono库是C++11中一个非常强大和实用的库,它为时间处理提供了丰富的功能和类型安全的接口,通过本文的介绍,我们了解了chrono库的基本概念... 目录一、引言1.1 为什么需要<chrono>库1.2<chrono>库的基本概念二、时间段(Durat

一文详解Git中分支本地和远程删除的方法

《一文详解Git中分支本地和远程删除的方法》在使用Git进行版本控制的过程中,我们会创建多个分支来进行不同功能的开发,这就容易涉及到如何正确地删除本地分支和远程分支,下面我们就来看看相关的实现方法吧... 目录技术背景实现步骤删除本地分支删除远程www.chinasem.cn分支同步删除信息到其他机器示例步骤

springboot项目打jar制作成镜像并指定配置文件位置方式

《springboot项目打jar制作成镜像并指定配置文件位置方式》:本文主要介绍springboot项目打jar制作成镜像并指定配置文件位置方式,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录一、上传jar到服务器二、编写dockerfile三、新建对应配置文件所存放的数据卷目录四、将配置文

python3如何找到字典的下标index、获取list中指定元素的位置索引

《python3如何找到字典的下标index、获取list中指定元素的位置索引》:本文主要介绍python3如何找到字典的下标index、获取list中指定元素的位置索引问题,具有很好的参考价值,... 目录enumerate()找到字典的下标 index获取list中指定元素的位置索引总结enumerat

浅析如何保证MySQL与Redis数据一致性

《浅析如何保证MySQL与Redis数据一致性》在互联网应用中,MySQL作为持久化存储引擎,Redis作为高性能缓存层,两者的组合能有效提升系统性能,下面我们来看看如何保证两者的数据一致性吧... 目录一、数据不一致性的根源1.1 典型不一致场景1.2 关键矛盾点二、一致性保障策略2.1 基础策略:更新数

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

Python远程控制MySQL的完整指南

《Python远程控制MySQL的完整指南》MySQL是最流行的关系型数据库之一,Python通过多种方式可以与MySQL进行交互,下面小编就为大家详细介绍一下Python操作MySQL的常用方法和最... 目录1. 准备工作2. 连接mysql数据库使用mysql-connector使用PyMySQL3.

Linux使用scp进行远程目录文件复制的详细步骤和示例

《Linux使用scp进行远程目录文件复制的详细步骤和示例》在Linux系统中,scp(安全复制协议)是一个使用SSH(安全外壳协议)进行文件和目录安全传输的命令,它允许在远程主机之间复制文件和目录,... 目录1. 什么是scp?2. 语法3. 示例示例 1: 复制本地目录到远程主机示例 2: 复制远程主

IDEA如何实现远程断点调试jar包

《IDEA如何实现远程断点调试jar包》:本文主要介绍IDEA如何实现远程断点调试jar包的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录问题步骤总结问题以jar包的形式运行Spring Boot项目时报错,但是在IDEA开发环境javascript下编译