本文主要是介绍[论文笔记] Transformer-XL,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这篇论文提出的 Transformer-XL 主要是针对 Transformer 在解决 长依赖问题中受到固定长度上下文的限制,如 Bert 采用的 Transformer 最大上下文为 512(其中是因为计算资源的限制,不是因为位置编码,因为使用的是绝对位置编码正余弦编码)。
Transformer-XL 能学习超过固定长度的依赖性,而不破坏时间一致性。它由 段级递归机制 和一种新的位置编码方案 组成。该方法 不仅能够捕获长期依赖,还解决了上下文碎片的问题。
Transformer-XL 学到的依赖关系比 rnn 长80%,比普通transformer长450%(长依赖长了80%/450%),在短序列和长序列上都取得了很好的性能,在评估期间比普通transformer快1800多倍。将bpc/perplexity的最新结果在enwiki8上提高到0.99,在text8上提高到了1.08,在wikitext-103上提高到了18.3,在10亿单词上提高到了21.8,在Penn Treebank上提高到54.5。当仅当WikiText-103上进行训练时,Transformer-XL能生成1k+tokens的合理连贯新颖的文章。(,体感:1k+tokens文章生成流畅连贯
这篇关于[论文笔记] Transformer-XL的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!