推性专题

Transformer-Attention优化:ALiBi(Attention with Linear Bias)【提升外推性】

论文地址: https://arxiv.org/pdf/2108.12409.pdf 我们都知道,文本长度一直是 transformer 的硬伤。 不同于 RNN,transformer 在训练时必须卡在一个最大长度上, 而这将会导致训练好的模型无法在一个与训练时的长度相差较远的句子上取得较好的推理结果。 ALiBi 是 22 年提出的一种方法,其目的就是解决 transformer