本文主要是介绍Transformer-Attention优化:ALiBi(Attention with Linear Bias)【提升外推性】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
论文地址: https://arxiv.org/pdf/2108.12409.pdf
我们都知道,文本长度一直是 transformer 的硬伤。
不同于 RNN,transformer 在训练时必须卡在一个最大长度上,
而这将会导致训练好的模型无法在一个与训练时的长度相差较远的句子上取得较好的推理结果。
ALiBi 是 22 年提出的一种方法,其目的就是解决 transformer 训练和推理时文本长度不一致的难题,
论文中在训练时候使用 1024 的最大长度,但在推理时用 2048 的最大长度推理,并且在 PPL 指标持平。
同样,我们先来看看论文中给出的效果:
Sinusoidal 看作是普通的 transformer 模型,纵轴 Perplexity 越小代表模型越好
上图中表示,ALiBi 都是在测试集的句子最大长度的「一半长度」上进行训练,
而 Sinusoidal 则是正常在「测试集长度」上进行训练,
纵轴困惑度(Perplexity)越小代表模型效果越好。
这篇关于Transformer-Attention优化:ALiBi(Attention with Linear Bias)【提升外推性】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!