深入理解推荐系统：推荐系统中的attention机制

本文主要是介绍深入理解推荐系统：推荐系统中的attention机制，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

什么是attention机制、在推荐模型中的应用（会介绍相关模型，AFM/DIN/DIEN/DST）和参考文献

什么是attention机制

Attention函数的本质可以被描述为一个查询（query）到一系列（键key-值value）对的映射，在计算attention时主要分为三步

第一步是将query和每个key进行相似度计算得到权重，常用的相似度函数有点积，拼接，感知机等；

第二步一般是使用一个softmax函数对这些权重进行归一化；

第三步将权重和相应的键值value进行加权求和得到最后的attention。

目前在NLP研究中，key和value常常都是同一个，即key=value（即self-attention）。

attention与self-attention的区别与联系

query来自于解码层，key和value来自于编码层时叫vanilla attention，即最基本的attention。query，key和value都来自编码层的叫self-attention。

以Encoder-Decoder框架为例，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子，Attention发生在Target的元素Query和Source中的所有元素之间。

Self Attention，指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的Attention。

两者具体计算过程是一样的，只是计算对象发生了变化而已。

深入理解推荐系统：推荐系统中的attention机制 - 知乎写在前面【推荐系统】专栏历史文章：深入理解YouTube推荐系统算法深入理解推荐系统：召回深入理解推荐系统：排序深入理解推荐系统：Fairness、Bias和Debias作为【推荐系统】系列文章的第五篇，将以推荐系统中的“…https://zhuanlan.zhihu.com/p/269610432?utm_source=cn.wiz.note