论文笔记：Attention Is All You Need

本文主要是介绍论文笔记：Attention Is All You Need，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

谷歌发表的文章，针对nlp里的机器翻译问题，提出了一种基于注意力机制的的网络结构–Transformer。

https://blog.csdn.net/songbinxu/article/details/80332992
以往nlp里大量使用RNN结构和encoder-decoder结构，RNN及其衍生网络的缺点就是慢，问题在于前后隐藏状态的依赖性，无法实现并行，而文章提出的”Transformer”完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，这样做最大的好处是能够并行计算了。

https://www.jianshu.com/p/b1030350aadb
计算Attention首先要有query，key和value。我们前面提到了，Encoder的attention是self-attention，Decoder里面的attention首先是self-attention，然后是encoder-decoder attention。这里的两种attention是针对query和key-value来说的，对于self-attention来说，计算得到query和key-value的过程都是使用的同样的输入，因为要算自己跟自己的attention嘛；而对encoder-decoder attention来说，query的计算使用的是decoder的输入，而key-value的计算使用的是encoder的输出，因为我们要计算decoder的输入跟encoder里面每一个的相似度。

https://yq.aliyun.com/articles/342508
抛弃了 RNN 、lstm结构来做 Seq2Seq
对句子中的词进行position embedding
self-attention对自己的query k v进行

https://blog.csdn.net/appleml/article/details/83415489 这篇笔记写的不错
解释了Q，K， V 到底是什么

https://www.cnblogs.com/huangyc/p/9813907.html

https://www.jianshu.com/p/3f2d4bc126e6

https://cloud.tencent.com/developer/article/1377062

这篇关于论文笔记：Attention Is All You Need的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！