阅读笔记--2022-SIGIR-Improving Micro-video Recommendation via Contrastive Multiple Interests

本文主要是介绍阅读笔记--2022-SIGIR-Improving Micro-video Recommendation via Contrastive Multiple Interests，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

阅读笔记–Improving Micro-video Recommendation via Contrastive Multiple Interests

paper: https://arxiv.org/abs/2205.09593

1. Motivation

随着微视频创作者和观看者的快速增加，如何从大量的数据中向观看者做出个性化的推荐开始受到越来越多的关注。然而，现有的微视频推荐模型依赖于昂贵的多模态信息，学习的是整体兴趣嵌入，不能反映用户在微视频中的多重兴趣（ multiple interests）。

最近，对比学习也被引入到推荐中，如顺序推荐、基于图神经网络的推荐等，实现了去偏和去噪，解决了表征退化和冷启动问题，提高推荐精度。

所以本文想通过对比学习的方式来提升微视频的推荐，提出了CMI模型。

2. Challenge

如图1所示，用户对旅游和宠物都感兴趣，用户未来的交互可能涉及其中的任何一个兴趣.因此，更合理的方法是学习multiple disentangled interest embeddings（分离的用户兴趣嵌入），每个兴趣嵌入代表用户兴趣的一个方面，然后根据学习到的multiple disentangled interest embeddings为用户生成推荐。
在微视频场景下，微视频是自动播放的，正向交互中存在噪声，有时用户无法判断是否喜欢该微视频，直到微视频播放完毕。然而，现有的微视频推荐模型和多兴趣推荐模型都没有利用对比学习来减少正交互中噪声的影响。

3. Method

3.1 问题定义

user sets ： $\bold U$ , item sets : $\bold V$ （注：这里的item指的是 micro-video） , 用一个三元组 $(i, j, t)$ 表示user $u_i$ 在时间戳 $t$ 时和 micro-video $v_j$ 之间的交互。
对于一个特定的user $u_i\in \bold U$ , 它在一段时间内的历史交互序列表示为： $s_i =[v_{i1},v_{i2},...,v_{i|s_i|}]$ 其中，视频按用户 $𝑢_𝑖$ 与视频交互的时间戳按升序排序。
其次，学习每个用户的多个兴趣嵌入（ multiple interest embeddings），表示为： $u_i^1,u_i^2,...,u_i^m]$ 。然后，对于每个兴趣嵌入，我们计算每个候选微视频的余弦相似度，并召回K个相似度最高的微视频，最终可以召回 $m K$ 个微视频（因为有m个 interest embedding）。最后对这 $m K$ 个视频按余弦相似度降序排序，选出前K个微视频推荐给用户。
整体模型图如图二所示：

3.2 Multi-interest and General Interest Encoders

我们假设用户对某一类item的偏好形成了用户的兴趣。因此，我们假设有 $m$ 个categories of items，为这 $m$ 个类别设置可学习的隐式嵌入（category embedding） $g_1,g_2,…,g_𝑚]$ 。再结合用户 $u_i$ 的历史交互序列： $S_i =[v_{i1},v_{i2},...,v_{i|s_i|}]$ （这里的 $v_{ik}$ 指的是通过了embedding layer得到的item embedding）。使用余弦相似度计算item embedding和category embedding之间的相似性，从而判断出该item属于哪个category。

用公式1 计算item $𝑣_{𝑖𝑘}\in S_𝑖$ 匹配类别 $l$ 的得分：

$w_{ik}^l=\frac {g_l^Tv_{ik}}{||g_l||_2\space ||v_{ik}||_2}$

接下来，用公式2计算item $𝑣_{𝑖𝑘}\in S_𝑖$ 分配到类别 $l$ 的概率 $p_{ik}^l$ ：( $\epsilon$ 是为了避免过拟合而设置的小于1的超参数)

$p_{ik}^l=\frac {exp(w_{ik}^l/\epsilon)}{\sum_{l=1}^m exp(w_{ik}^l/\epsilon)}$

然后，就可以用公式3计算对应item category $l$ 的 user interest $\bold u_i^l$ ：

$u_i^l=\sum_{k=1}^{|s_i|}p_{ik}^l \space v_{ik}$

注意：在执行类别赋值时，我们可能会遇到两种退化情况：

每个item属于不同类别的概率相同或相似。造成这种退化的原因是学习到的 item category embeddings彼此相当相同
某一种 item category主导了整个item嵌入空间，这意味着所有项目都属于这个类别。

为了避免以上情况：我们将category embedding和item embedding都约束在一个单位超球内，即 $g_i||_2=||v_*||_2==1$ ，并约束每两个 category embeddings为正交，构造正交性损失如式4所示。
$L_{orth}=\sum_{i=1}^m\sum_{j=1,j\neq i}^m(g_i^T\space g_j)^2$
除了编码用户的多种兴趣之外，我们还使用GRU(引用别人的方法)对用户一般兴趣的演化进行建模，实现用户的一般兴趣 $u_i^g=GRU([v_{i1},v_{i2},...,v_{i|s_i|}])$

3.3 Contrastive Regularization

我们认为部分交互中隐含的用户兴趣与所有交互中隐含的用户兴趣是相同的。因此，我们采用随机抽样的方法进行数据增广。

给定用户 $u_i$ 的历史交互序列 $s_i =[v_{i1},v_{i2},...,v_{i|s_i|}]$ ，我们从 $s_i$ 中采样 $min(\mu_{|s_i|},f)$ micro-videos并仍然按照 $s_i$ 中的顺序形成一个新的序列 $s_i^{'}$ (注： $\mu$ 表示采样率， $f$ 表示默认值为100的最长序列长度) 。通过对 $𝑠_𝑖$ 进行两次随机抽样，我们得到两个序列 $s_i^{'}$ 和 $s_i^{"}$ 。

然后将这两个序列feed 进two multi-interest encoders 从而学得两组用户兴趣（user interests）: $\bold U_i^{'}=[u_i^{1'},u_i^{2'},...,u_i^{m'}]$ 和 $\bold U_i^{"}=[u_i^{1"},u_i^{2"},...,u_i^{m"}]$ ，如公式5所示：
$\bold U_i^{'}=Multi\_ Interest\_Encoder(s_i^{'}) \\ \bold U_i^{"}=Multi\_ Interest\_Encoder(s_i^{"})$
然后，我们构建一个对比的多兴趣损失（ contrastive multi-interest loss）如下：
$L_{cl}(u_i^{k'},u_i^{k"})=-log \frac{e^{sim(u_i^{k'},u_i^{k"})}}{e^{sim(u_i^{k'},u_i^{k"})}+\sum_{s^-\in S^-}e^{sim(u_i^{k'},s^-)}}-log \frac{e^{sim(u_i^{k'},u_i^{k"})}}{e^{sim(u_i^{k'},u_i^{k"})}+\sum_{s^-\in S^-}e^{sim(u_i^{k"},s^-)}}$
这里的 $u_i^{k'}\in \bold U_i^{'}$ 和 $u_i^{k"} \in \bold U_i^{"}$ 对应the 𝑘-th micro-video category。对于任意一种interest embedding $u_i^{k'}\in \bold U_i^{'}$ of user $u_i$ ，我们构造一个正样本对 $u_i^{k'},u_i^{k"})$ , 然后用 $u_i^{k'}$ 构造 $2 m - 2$ 个负样本对和 $2 m - 2$ 个用户的interest embedding $u_i^{h'}\in \bold U_i^{'}$ 和 $u_i^{h"}\in \bold U_i^{"}$ 。

通过数据增强和对比的多兴趣损失，用户兴趣学习对特定的正交互不再敏感，从而减少了有噪声的正交互的影响，实现了正交互去噪。

3.4 Loss Function

用户 $u_i$ 对候选item $v_t$ 的交互分数被预测为： $c_{it}=max_{0<k\leq m}({u_i^{kt}v_t/\epsilon}+{u_i^{g}}^T)$
在训练过程中，对于用户 $u_i$ 的每一个正样本 $v_p^i$ ，我们需要从完整的微视频中随机抽取从未互动过的微视频 $n$ 作为负样本。但是，为了避免较高的采样成本，给定一个正样本，我们只采样一个负样本，即 $n = 1$ 。另外，我们将同一个batch里其他用户的正采样item和负采样item作为负样本，从而形成负样本集 $\bold N$ ，然后我们采用以下交叉熵损失作为损失的主要部分: