论文阅读——A Pre-trained Sequential Recommendation Framework Popularity Dynamics for Zero-shot Transfer

本文主要是介绍论文阅读——A Pre-trained Sequential Recommendation Framework Popularity Dynamics for Zero-shot Transfer，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

论文阅读——A Pre-trained Sequential Recommendation Framework: Popularity Dynamics for Zero-shot Transfer

’一个预训练的顺序推荐框架：零样本迁移的流行动态‘

摘要： 在在线应用的成功中，如电子商务、视频流媒体和社交媒体，顺序推荐系统是至关重要的。虽然模型架构不断改进，但对于每个新的应用领域，我们仍然需要从头开始训练一个新模型以获得高质量的推荐。另一方面，预训练的语言和视觉模型在零样本或少样本适应到新应用领域方面取得了巨大成功。受到同行AI领域预训练模型成功的启发，我们提出了一种新颖的预训练顺序推荐框架：PrepRec。我们通过建模项目流行动态来学习通用项目表示。通过对五个真实世界数据集进行广泛的实验证明，PrepRec在没有任何辅助信息的情况下不仅可以零样本迁移到新领域，而且在模型尺寸的一小部分的情况下，与最先进的顺序推荐模型相比，可以获得有竞争力的性能。此外，通过简单的事后插值，PrepRec在Recall@10方面可以平均提高现有顺序推荐系统的性能13.8%，在NDCG@10方面提高29.5%。我们提供了PrepRec的匿名实现，网址为：https: //anonymous.4open.science/r/PrepRec–2F60/ .

1 INTRODUCTION

提出问题： 我们能否构建一个无需任何辅助信息即可进行跨域和跨应用零样本迁移的预训练顺序推荐系统？（例如，使用在美国接受在线购物训练的模型来预测印度用户将观看的下一部电影）。

与预训练的语言和视觉模型在数据集和应用程序中表现的出色通用性不同。在跨域推荐问题中，顺序推荐数据集中跨域的项目是不同的（例如，杂货商品与电影）。因此，如果我们学习每个域中每个项目的特定表示，形成这种可概括的对应关系几乎是不可能的。目前有研究借助辅助信息在同一类型应用程序中进行顺序推荐的预训练模型。

本文： 解决了零样本、跨域顺序推荐的挑战，无需任何辅助信息。

recent work in recommender systems suggests that the popularity dynamics of items are also crucial for predicting users’ behaviors

（项目的流行动态对于预测用户行为也至关重要）

受这个启发，作者提出了PrepRec。根据项目的受欢迎程度动态来表示项目，而不是其明确的ID。

模型学习：item popularity representations, timeinterval and positional encoding.(有交互的连续的编码)

贡献：

Universal item representations: We are the first to learn universal item representations for sequential recommendation. In contrast, prior research learns item representations for each item ID or through item auxiliary information. We learn universal item representations by exploiting item popularity dynamics. We learn two temporal representations using a transformer architecture with optimizations at any time 𝑡 for each item’s popularity: at a coarse and fine-grained level. We represent items’ popularity dynamics (i.e., representing popularity changes) by concatenating representations over a fixed time interval. Item dynamics are inferrable from the user-item interaction data, and thus, the learned item representations are transferable across domains and applications. These item representations make possible pre-trained sequential recommender systems capable of cross-domain and cross-application transfer without any auxiliary information.

Zero-shot transfer without auxiliary information: We propose a new challenging setting for pre-trained sequential recommender systems: zero-shot transfer without any auxiliary information. In contrast, previous works in sequential recommender systems capable of cross-domain zero-shot rely heavily on applicationdependent auxiliary information [7, 12, 18]. To the best of our knowledge, we are the first to tackle this challenging setting in sequential recommendation.

1、通用项目表示：区别于先前的工作（通过学习每个项目的ID和辅助信息来表示item），本文是第一个将通用项目表示用在序列推荐中的。作者通过挖掘项目流行度动态来学习通用项目表示。

2、无辅助信息的零样本传输：区别于先前需要大量辅助信息的跨领域零样本序列推荐系统，本文是第一个解决零样本传输不依靠辅助性息的研究。

2 RELATED WORK

1、序列推荐：介绍了发展史 $\Rightarrow$ 推出先前的工作没有考虑项目流行度统计的动态，也不能进行零样本顺序推荐。

2、推荐中的迁移学习：先前的工作：1）对信息丰富的领域来提高数据稀疏领域的推荐性能，假设用户和项目有重叠来实现知识迁移；2）关注冷启动问题，这些工作假设辅助信息可用，且只能解决单方面的冷启动问题（项目or用户）。本文的工作：专注于零样本传输问题，其中两个域中都没有可用的辅助信息。

3 PROBLEM DEFINITION

$M$ as the implicit feedback matrix

$U$ as the set of users

$V$ $as the set of items

$F(v^t|S_u,M)$ as the scoring function

两个域：假设 $U\cup U'=\emptyset$ and $V\cup V'=\emptyset$

4 PREPREC FRAMEWORK

4.1 Model Architecture

4.1.1 Universal Item Representation encoder

$a^t_j = \sum_{t}^{m=1} {\gamma^{t-m}c_a(v^m_j)}, b^t_j =c_b(v^t_j)$

$\gamma$ 是折扣因子， $c_a(v^m_j)$ 是 $v_j$ 粗略时间段 $m$ 内的交互次数（粗粒度）， $c_b(v^t_j)$ 是 $v_j$ 精细时间段 $t$ 内的交互次数（细粒度）。
$e^t_j = \varepsilon(P^t_j, H^t_j) = W_p[(\lVert_{i=t-m}^{t-1}p^i_j)\lVert(\lVert_{i=t-n}^{t-1}h^i_j)]$
$\lVert$ 表示串联操作， $W_p\in \Bbb{R}^{d\times k(m+m)}$ 是一个可学习的权重矩阵。流行度动态 $P^t_j, H^t_j$ 编码为 $d$ 维向量表示 $e^t_j$ 。

4.1.2 Relative Time Interval Encoding

时间间隔编码：正弦编码。参考论文如下：

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems 30 (2017).

4.1.3 Positional Encoding

位置编码和时间间隔编码类似，参考同一篇论文。

4.1.4 Popularity Dynamics-Aware Transformer Layer

合并前三节中的模型组件来对序列中项目流行度动态进行建模。
$E_u = \begin{bmatrix} e^t_{u,1}+T_{r_u,1}+P_1 \\ e^{t'}_{u,2}+T_{r_u,2}+P_2 \\...\\ e^{t^*}_{u,L}+T_{r_u,L}+P_L \end{bmatrix}$
Multi-Head Self-Attention、Causality、Point-Wise Feed-Forward Network、Stacking Layers 介绍了一些实现的细节，详细看论文。

4.1.5 Prediction

经过上面四节计算后，用户 $u$ 的嵌入表示为 $q_u$ ，如下图。

预测分数为 $q_u$ 和 $e^{t^+}_j$ 的内积。

在这里插入图片描述

4.2 Training Procedure

采用二元交叉熵损失作为目标函数。与[21]类似。用Adam作为优化器并端到端地训练模型。

[21] Wang-Cheng Kang and Julian McAuley. 2018. Self-attentive sequential recommendation. In 2018 IEEE international conference on data mining (ICDM). IEEE, 197–206.

4.3 Zero-shot Inference

假设给定一个在 $M$ 上训练的预训练模型 $F$ 。首先计算 $M^{'}$ 中每个项目在较粗时间段和较细时间段内的流行度动态。然后，将预训练模型 $F$ 应用到 $M'$ 并计算预测分数.

5 EXPERIMENTS

实验设置（略）

数据集：Amazon(Office、tool)、Douban(Movie、Music)、Epinoins

在这里插入图片描述

实验结果：

在这里插入图片描述

（RQ1) PrepRec 在常规的域内顺序推荐设置下表现如何？

本文的目的并不是要超越最先进的顺序推荐器。相反，我们将结果包含在此处是为了研究流行度动态如何在顺序推荐中捕获用户的偏好，并解释最先进的模型。然而，PrepRec 仍然通过最先进的顺序推荐器实现了具有竞争力的性能——在 R@10 中误差在 5% 以内。在 Epinions 上，PrepRec 甚至比所有顺序推荐器高出 7.3%。

提出了一种简单的事后插值来研究流行度动态建模是否可以提高最先进的顺序推荐器的性能。我们将 PrepRec 的分数与 BERT4Rec 的分数进行插值。实验结果有显著提升。

（RQ2）PrepRec（流行度动态）能否推广到零样本跨域和跨应用程序传输？

如表4，推测，与目标数据集具有相似密度水平的源数据集通常会实现出色的泛化性能，这表明我们的模型捕获了数据集空间中的相关特征。

结果表明我们的模型在跨领域和应用程序传输方面的有效性，其性能与在目标数据集上训练的 SOTA 模型相当或更高，而无需对交互数据或辅助信息进行任何训练。

（RQ3) 影响 PrepRec 性能的因素有哪些？换句话说，PrepRec 对构建流行动态的不同选择有多敏感？

$\gamma=0.5$ 的时候效果最好， $t - n$ 表示为 $n$ 个精确时间段之间。实验发现 $t - 6$ 和 $t - 12$ 在所有数据集中的性能显著下降，所以捕获最近柳州的趋势至关重要。

（RQ4) PrepRec 可用的训练数据量有何影响？如果将预训练模型应用于数据有限的新领域，这一点可能至关重要。

基线顺序推荐器对数据稀疏性很敏感，当训练数据较少时，性能会显着下降，因为顺序推荐器学习特定于项目 ID 的项目表示，并且表示质量高度依赖于交互的数量。另一方面，PrepRec 通过流行度动态学习项目表示，表明流行度动态对于数据稀疏性更加鲁棒。这对于现实世界的应用程序至关重要，作者希望将模型转移到数据有限的新领域。 PrepRec 能够从有限的数据中学习，并且优于基线顺序推荐器。

在这里插入图片描述