为什么 θ i \theta_i θi的取值会造成远程衰减性 旋转位置编码的出发点为:通过绝对位置编码的方式实现相对位置编码。 对词向量 q \boldsymbol{q} q添加绝对位置信息 m m m,希望找到一种函数 f f f,使得: < f ( q , m ) , f ( k , n ) > = g ( q , k , m − n ) <f(\boldsymbol{q}, m),
Exponential decay is the decrease in a quantity N according to the law N ( t ) = N 0 e − λ t , ( 1 ) N(t)=N_{0}e^{-\lambda t} , (1) N(t)=N0e−λt,(1) for a parameter t and constant lambda (known as th