论文阅读——A Pre-trained Sequential Recommendation Framework Popularity Dynamics for Zero-shot Transfer

本文主要是介绍论文阅读——A Pre-trained Sequential Recommendation Framework Popularity Dynamics for Zero-shot Transfer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文阅读——A Pre-trained Sequential Recommendation Framework: Popularity Dynamics for Zero-shot Transfer

’一个预训练的顺序推荐框架:零样本迁移的流行动态‘

摘要: 在在线应用的成功中,如电子商务、视频流媒体和社交媒体,顺序推荐系统是至关重要的。虽然模型架构不断改进,但对于每个新的应用领域,我们仍然需要从头开始训练一个新模型以获得高质量的推荐。另一方面,预训练的语言和视觉模型在零样本或少样本适应到新应用领域方面取得了巨大成功。受到同行AI领域预训练模型成功的启发,我们提出了一种新颖的预训练顺序推荐框架:PrepRec。我们通过建模项目流行动态来学习通用项目表示。通过对五个真实世界数据集进行广泛的实验证明,PrepRec在没有任何辅助信息的情况下不仅可以零样本迁移到新领域,而且在模型尺寸的一小部分的情况下,与最先进的顺序推荐模型相比,可以获得有竞争力的性能。此外,通过简单的事后插值,PrepRec在Recall@10方面可以平均提高现有顺序推荐系统的性能13.8%,在NDCG@10方面提高29.5%。我们提供了PrepRec的匿名实现,网址为:https: //anonymous.4open.science/r/PrepRec–2F60/ .

1 INTRODUCTION

提出问题: 我们能否构建一个无需任何辅助信息即可进行跨域和跨应用零样本迁移的预训练顺序推荐系统? (例如,使用在美国接受在线购物训练的模型来预测印度用户将观看的下一部电影)。

与预训练的语言和视觉模型在数据集和应用程序中表现的出色通用性不同。在跨域推荐问题中,顺序推荐数据集中跨域的项目是不同的(例如,杂货商品与电影)。因此,如果我们学习每个域中每个项目的特定表示,形成这种可概括的对应关系几乎是不可能的。目前有研究借助辅助信息在同一类型应用程序中进行顺序推荐的预训练模型。

本文: 解决了零样本、跨域顺序推荐的挑战,无需任何辅助信息。

recent work in recommender systems suggests that the popularity dynamics of items are also crucial for predicting users’ behaviors

(项目的流行动态对于预测用户行为也至关重要)

受这个启发,作者提出了PrepRec。根据项目的受欢迎程度动态来表示项目,而不是其明确的ID。

模型学习:item popularity representations, timeinterval and positional encoding.(有交互的连续的编码)

贡献:

Universal item representations: We are the first to learn universal item representations for sequential recommendation. In contrast, prior research learns item representations for each item ID or through item auxiliary information. We learn universal item representations by exploiting item popularity dynamics. We learn two temporal representations using a transformer architecture with optimizations at any time 𝑡 for each item’s popularity: at a coarse and fine-grained level. We represent items’ popularity dynamics (i.e., representing popularity changes) by concatenating representations over a fixed time interval. Item dynamics are inferrable from the user-item interaction data, and thus, the learned item representations are transferable across domains and applications. These item representations make possible pre-trained sequential recommender systems capable of cross-domain and cross-application transfer without any auxiliary information.

Zero-shot transfer without auxiliary information: We propose a new challenging setting for pre-trained sequential recommender systems: zero-shot transfer without any auxiliary information. In contrast, previous works in sequential recommender systems capable of cross-domain zero-shot rely heavily on applicationdependent auxiliary information [7, 12, 18]. To the best of our knowledge, we are the first to tackle this challenging setting in sequential recommendation.

1、通用项目表示:区别于先前的工作(通过学习每个项目的ID和辅助信息来表示item),本文是第一个将通用项目表示用在序列推荐中的。作者通过挖掘项目流行度动态来学习通用项目表示。

2、无辅助信息的零样本传输:区别于先前需要大量辅助信息的跨领域零样本序列推荐系统,本文是第一个解决零样本传输不依靠辅助性息的研究。

2 RELATED WORK

1、序列推荐:介绍了发展史 ⇒ \Rightarrow 推出先前的工作没有考虑项目流行度统计的动态,也不能进行零样本顺序推荐。

2、推荐中的迁移学习:先前的工作:1)对信息丰富的领域来提高数据稀疏领域的推荐性能,假设用户和项目有重叠来实现知识迁移;2)关注冷启动问题,这些工作假设辅助信息可用,且只能解决单方面的冷启动问题(项目or用户)。本文的工作:专注于零样本传输问题,其中两个域中都没有可用的辅助信息。

3 PROBLEM DEFINITION

M M M as the implicit feedback matrix

U U U as the set of users

V V V$as the set of items

F ( v t ∣ S u , M ) F(v^t|S_u,M) F(vtSu,M) as the scoring function

两个域:假设 U ∪ U ′ = ∅ U\cup U'=\emptyset UU= and V ∪ V ′ = ∅ V\cup V'=\emptyset VV=

4 PREPREC FRAMEWORK

4.1 Model Architecture

4.1.1 Universal Item Representation encoder

a j t = ∑ t m = 1 γ t − m c a ( v j m ) , b j t = c b ( v j t ) a^t_j = \sum_{t}^{m=1} {\gamma^{t-m}c_a(v^m_j)}, b^t_j =c_b(v^t_j) ajt=tm=1γtmca(vjm),bjt=cb(vjt)

γ \gamma γ 是折扣因子, c a ( v j m ) c_a(v^m_j) ca(vjm) v j v_j vj粗略时间段 m m m内的交互次数(粗粒度), c b ( v j t ) c_b(v^t_j) cb(vjt) v j v_j vj精细时间段 t t t内的交互次数(细粒度)。
e j t = ε ( P j t , H j t ) = W p [ ( ∥ i = t − m t − 1 p j i ) ∥ ( ∥ i = t − n t − 1 h j i ) ] e^t_j = \varepsilon(P^t_j, H^t_j) = W_p[(\lVert_{i=t-m}^{t-1}p^i_j)\lVert(\lVert_{i=t-n}^{t-1}h^i_j)] ejt=ε(Pjt,Hjt)=Wp[(i=tmt1pji)∥(i=tnt1hji)]
∥ \lVert 表示串联操作, W p ∈ R d × k ( m + m ) W_p\in \Bbb{R}^{d\times k(m+m)} WpRd×k(m+m) 是一个可学习的权重矩阵。流行度动态 P j t , H j t P^t_j, H^t_j Pjt,Hjt 编码为 d d d维向量表示 e j t e^t_j ejt

4.1.2 Relative Time Interval Encoding

时间间隔编码:正弦编码。参考论文如下:

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems 30 (2017).

4.1.3 Positional Encoding

位置编码和时间间隔编码类似,参考同一篇论文。

4.1.4 Popularity Dynamics-Aware Transformer Layer

合并前三节中的模型组件来对序列中项目流行度动态进行建模。
E u = [ e u , 1 t + T r u , 1 + P 1 e u , 2 t ′ + T r u , 2 + P 2 . . . e u , L t ∗ + T r u , L + P L ] E_u = \begin{bmatrix} e^t_{u,1}+T_{r_u,1}+P_1 \\ e^{t'}_{u,2}+T_{r_u,2}+P_2 \\...\\ e^{t^*}_{u,L}+T_{r_u,L}+P_L \end{bmatrix} Eu= eu,1t+Tru,1+P1eu,2t+Tru,2+P2...eu,Lt+Tru,L+PL
Multi-Head Self-Attention、Causality、Point-Wise Feed-Forward Network、Stacking Layers 介绍了一些实现的细节,详细看论文。

4.1.5 Prediction

经过上面四节计算后,用户 u u u的嵌入表示为 q u q_u qu,如下图。

预测分数为 q u q_u qu e j t + e^{t^+}_j ejt+的内积。

在这里插入图片描述

4.2 Training Procedure

采用二元交叉熵损失作为目标函数。与[21]类似。用Adam作为优化器并端到端地训练模型。

[21] Wang-Cheng Kang and Julian McAuley. 2018. Self-attentive sequential recommendation. In 2018 IEEE international conference on data mining (ICDM). IEEE, 197–206.

4.3 Zero-shot Inference

假设给定一个在 M M M 上训练的预训练模型 F F F。首先计算 M ′ M' M 中每个项目在较粗时间段和较细时间段内的流行度动态。然后,将预训练模型 F F F 应用到 M ′ M′ M 并计算预测分数.

5 EXPERIMENTS

实验设置(略)

数据集:Amazon(Office、tool)、Douban(Movie、Music)、Epinoins

在这里插入图片描述

实验结果:

在这里插入图片描述
在这里插入图片描述

(RQ1) PrepRec 在常规的域内顺序推荐设置下表现如何?

本文的目的并不是要超越最先进的顺序推荐器。相反,我们将结果包含在此处是为了研究流行度动态如何在顺序推荐中捕获用户的偏好,并解释最先进的模型。然而,PrepRec 仍然通过最先进的顺序推荐器实现了具有竞争力的性能——在 R@10 中误差在 5% 以内。在 Epinions 上,PrepRec 甚至比所有顺序推荐器高出 7.3%。

提出了一种简单的事后插值来研究流行度动态建模是否可以提高最先进的顺序推荐器的性能。我们将 PrepRec 的分数与 BERT4Rec 的分数进行插值。实验结果有显著提升。

(RQ2)PrepRec(流行度动态)能否推广到零样本跨域和跨应用程序传输?

如表4,推测,与目标数据集具有相似密度水平的源数据集通常会实现出色的泛化性能,这表明我们的模型捕获了数据集空间中的相关特征。

结果表明我们的模型在跨领域和应用程序传输方面的有效性,其性能与在目标数据集上训练的 SOTA 模型相当或更高,而无需对交互数据或辅助信息进行任何训练。

(RQ3) 影响 PrepRec 性能的因素有哪些?换句话说,PrepRec 对构建流行动态的不同选择有多敏感?

γ = 0.5 \gamma=0.5 γ=0.5的时候效果最好, t − n t-n tn表示为 n n n个精确时间段之间。实验发现 t − 6 t-6 t6 t − 12 t-12 t12在所有数据集中的性能显著下降,所以捕获最近柳州的趋势至关重要。

(RQ4) PrepRec 可用的训练数据量有何影响?如果将预训练模型应用于数据有限的新领域,这一点可能至关重要。

基线顺序推荐器对数据稀疏性很敏感,当训练数据较少时,性能会显着下降,因为顺序推荐器学习特定于项目 ID 的项目表示,并且表示质量高度依赖于交互的数量。另一方面,PrepRec 通过流行度动态学习项目表示,表明流行度动态对于数据稀疏性更加鲁棒。这对于现实世界的应用程序至关重要,作者希望将模型转移到数据有限的新领域。 PrepRec 能够从有限的数据中学习,并且优于基线顺序推荐器。

在这里插入图片描述

Discussion

作者认为 PrepRec 在以下场景中特别有用:

  1. 当域中的数据稀疏时的初始序列模型

  2. 开发更复杂的顺序推荐器(即预测插值)的骨干

  3. 在线推荐设置。

    PrepRec 没有显式地对项目 ID 进行建模,它还可以轻松地推广到新项目/用户,而无需重新训练,只需更新流行度动态即可。作者将其留作未来的工作。


单词表达:state-of-the-art 最先进的

这篇关于论文阅读——A Pre-trained Sequential Recommendation Framework Popularity Dynamics for Zero-shot Transfer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/770289

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

uva 10061 How many zero's and how many digits ?(不同进制阶乘末尾几个0)+poj 1401

题意是求在base进制下的 n!的结果有几位数,末尾有几个0。 想起刚开始的时候做的一道10进制下的n阶乘末尾有几个零,以及之前有做过的一道n阶乘的位数。 当时都是在10进制下的。 10进制下的做法是: 1. n阶位数:直接 lg(n!)就是得数的位数。 2. n阶末尾0的个数:由于2 * 5 将会在得数中以0的形式存在,所以计算2或者计算5,由于因子中出现5必然出现2,所以直接一

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

Spring Framework系统框架

序号表示的是学习顺序 IoC(控制反转)/DI(依赖注入): ioc:思想上是控制反转,spring提供了一个容器,称为IOC容器,用它来充当IOC思想中的外部。 我的理解就是spring把这些对象集中管理,放在容器中,这个容器就叫Ioc这些对象统称为Bean 用对象的时候不用new,直接外部提供(bean) 当外部的对象有关系的时候,IOC给它俩绑好(DI) DI和IO

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin