LANCER : A Lifetime-Aware News Recommender System阅读笔记

2023-10-29 05:40

本文主要是介绍LANCER : A Lifetime-Aware News Recommender System阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

🎯基本信息

🎯研究背景

🎞️研究内容

🚩研究方法

🚩实验分析

✅研究总结

💡创新点

✅未来研究方向

👀个人总结


🎯基本信息

📋标题:
LANCER: A Lifetime-Aware News Recommender System

🎓作者:Bae Hong-Kyun,Ahn Jeewon,Lee Dongwon,Kim Sang-Wook🗓️出版期刊和年份:AAAI-2023📍影响因子:

作者单位:

Department of Computer Science, Hanyang University, South Korea 2 College of Information Sciences and Technology, The Pennsylvania State University, USA

💭引用:

Bae, H.-K., Ahn, J., Lee, D. & Kim, S.-W. LANCER: A Lifetime-Aware News Recommender System. doi:10.1609/aaai.v37i4.25530.

🌟关键词:新闻推荐、生命周期、深度学习模型、有限竞争


🎯研究背景

研究的出发点:观察发现用户阅读新闻时往往不会点击过时的新闻。

  • 根据这个提出新闻“life time”的概念和两个假设。

之前研究存在的不足:没有在新闻推荐考虑新闻的生命周期的概念。

  • 在训练模型和向用户推荐新闻时没有考虑新闻的生命周期:它们没有考虑新闻之间的竞争来推断用户对新闻的偏好,也没有在推荐时考虑新闻的剩余生命周期。

  • 2014年就有研究提出在新闻推荐中使用生命周期的概念,但是忽略了新闻只有与其他有重叠生命周期的新闻竞争才能被用户点击的特性。

🎞️研究内容

(1)通过观察提出新闻"生命周期"的概念,和两个假设:( i )新闻的生命期比其他类型的物品(如电影或电子商务产品)更短;( ii )为了获得用户的点击,新闻只与其他生命期未结束的实时新闻竞争,并且这些新闻的生命周期存在重叠(即有限竞争)。

(2)提出了一种新的新闻推荐方法,即生命周期感知新闻推荐系统LANCER,在训练和推荐过程中充分利用新闻的生命周期。

LANCER三个关键思想:

  • 在竞争中考虑新闻:基于新闻的生命期,我们确定用户点击的新闻(正面新闻)比其它未被点击的新闻(负面新闻)更受用户青睐,后者的生命周期存在重叠(有限竞争)。

  • 竞争新闻中的基于置信度的负采样:公户未点击的新闻中和正面新闻存在重叠周期。可以估计新闻的受欢迎程度的置信度来发现真正的负面新闻。例如,我们假设当不受欢迎的新闻没有被点击时,它更有可能是真正的负面新闻,因为用户可能不喜欢它。

  • 考虑新闻剩余的生命周期:为了避免推荐生命期已经结束或快结束的新闻,通过考虑新闻剩余的生命周期来调整对新闻的预测偏好分数。通过这种调整,我们可以推荐具有预测偏好分数高和剩余生命期长的新闻。

(3)成功地证明了最新的新闻推荐模型可以通过整合生命周期的概念和LANCER获得显著增益。

🚩研究方法

(1)概念定义:

  • 新闻的生命周期:从初始发布时间到最后点击时间,相对较短(几个小时)

  • 有限竞争:新闻只与其他生命期未结束的且有时间重叠的新闻竞争,而不是和所有的新闻竞争。基于这些竞争训练的新闻推荐模型可以从中获益。

 新闻数据集和电影/戏剧数据集的点击率对比

  • 36hours vs 36 months

NRMS推荐新闻的发布时间统计

在新闻发布48h后依旧进行推荐,造成了推荐的浪费

(2)LANCER框架概述

1)考虑有时间重叠的新闻集(里面的新闻是竞争关系)并根据用户的点击分类 positive negative

  • 例如:c没有重叠就不考虑

  • 通过对新闻时间取交集来确定时间是否重叠

  • Finding news in competition with each other

  • Determining the positive/negative news

    将用户点击的新闻视为她的positive。将她在与positive新闻竞争期间没有点击的新闻确定为她的negative。

    例如:在ctime1期间,用户p只点击了d1B,因此,d1B和d1A分别被视为p的positive、negative新闻。

    “B > A and C > B for p, thus C > B > A for p; B > C for q”  “existing studies, the order of B = C > A”

    之前研究存在问题:错误的排序、将无法判断的新闻分类错误negative

2)将不太流行的新闻即使置信度高(dD)也判定为用户u的negative。

  • Confidence-based Negative Sampling among Competing News

    提出原因:部分没有点击的新闻不是用户不喜欢而是没有意识到它的存在。

    目标:对未点击的新闻进行抽样,这些新闻可以确信是用户的负面新闻和相应的正面新闻

    确定置信度:给用户未点击的新闻置信度,流行度越低,则相应的置信度越高

    di、dj分别为用户u的正负新闻,pop(u,di,dj)指在用户u点击di前其他用户点击di的竞争新闻dj的总数

    未来工作:流行度预测方法例如基于DL的模型(注意力网络)也可以独立地应用到我们的LANCER方法中,以确定对负新闻的置信度。

3)通过基于DL的模型NRMS对前面确定的positive/negative新闻训练来预测用户的偏好

  • Training the DL-based models

    使用已有的深度模型NRMS、CNE-SUE进行训练。并使用下面的损失函数进行优化

4)考虑新闻的剩余生命周期对用户的偏好分数进行调整。(原本推荐dG,调整后推荐dF)

  • Consideration of Remaining Lifetime

    利用sigmoid函数根据新闻的剩余生命周期降低用户的偏好分数。

🚩实验分析

数据集:MIND、Adressa

评估指标:AUC、MRR、NDCG

基准模型:NRMS (2019); LSTUR (2019); NAML (2019); CNE-SUE (2021).

实验结果:

Adressa:

MIND:

实验一:通过有限竞争来确定用户的负面新闻的有效性。

实验设计:设计了变体LANCERc,即只从与相应正面新闻有竞争关系的非点击新闻集中随机采样每个用户的K条非点击新闻。将其与原始方法(即Orig)进行了比较,后者在每个基础模型中都会随机采样每个用户的K条非点击新闻,而不考虑其生命周期。Imp样本从相应的正面新闻印象日志中随机抽取每个用户的K条非点击新闻。

实验结论:

  • 在两个数据集上,配备LANCERc的模型优于原始模型,说明了通过有限竞争来确定用户的负面新闻可以提高模型的性能。

  • 配备Imp的模型显示出比Orig更低的准确率,这表明从印象日志中通过负采样来训练模型对于推断用户偏好几乎是无效的。

实验二:采用了基于流行度的置信度对于负采样的有效性。

实验设计:设计LANCERC / N变体,通过赋予低流行的负新闻高概率来对负新闻采样。变体LANCERC/(1−N)通过赋予高流行的负新闻高概率来对负新闻采样。

实验结论:

    • LANCERC/N > LANCERC > LANCERC/(1−N)

  • 提出的基于置信度的负采样可以提高推荐性能

平滑值使用的有效性

  • 实验设计:RAW不使用任何平滑函数;SQRTs使用平方根作为平滑值(平滑效果低于log函数);LOG:使用log平滑函数

    实验结论:

    由于新闻之间流行度的严重差异,在计算基于流行度的新闻置信度时,使用适当的平滑值是必要的。

实验三、考虑新闻剩余生命周期对于预测偏好的有效性

实验设计:LANCERC/N/R集合了提出的三个关键思想。

实验结论:

  • LANCERC/N/R > LANCERC/N

  • 说明综合考虑新闻的剩余生命周期是有效的

利用配备两个变体(即LANCERC / N和LANCERC / N / R)dCNE-SUE给每个用户推荐top-1新闻,并调查每个对应新闻的剩余生命期。

结论:提出的整合所有想法的LANCERC/N/R有利于推荐具有高度预测偏好和足够剩余生命周期的新闻。

实验四、参数α的值对推荐性能的影响

 参数α决定思想3中的调整程度实验结论:

实验结论:

  • 较小的α值显著降低了剩余生命周期较小的新闻的预测偏好

  • α = 0.4,α = 0.1和α = 0.2分别是NRMS,LSTUR和NAML的最佳性能

✅研究总结

本文利用新闻领域的生命周期特征:( i )新闻的生命周期比电影或电子商务产品的生命周期相对较短;( ii )新闻只与其他生命期未结束的新闻竞争,而这些新闻的生命周期存在重叠(即有限竞争)。

本文提出了一种新的新闻推荐方法LANCER,它有三个关键思想:( i )考虑竞争中的新闻;( ii )在竞争新闻中进行基于置信度的负采样;( iii)考虑新闻的剩余周期。

使用两个真实世界新闻数据集的实证研究中,证明了一些最先进的新闻推荐算法通过结合我们的LANCER获得了显著增益。

💡创新点

提出在新闻推荐中考虑生命周期和新闻竞争的想法并验证提高基于DL新闻推荐模型的推荐性能。

✅未来研究方向

使用基于DL的模型来计算新闻负采样的置信度。

👀个人总结

优点:提出的模型具有通用性:可以独立地应用于现有的新闻推荐模型。

这篇关于LANCER : A Lifetime-Aware News Recommender System阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/298606

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

忽略某些文件 —— Git 学习笔记 05

忽略某些文件 忽略某些文件 通过.gitignore文件其他规则源如何选择规则源参考资料 对于某些文件,我们不希望把它们纳入 Git 的管理,也不希望它们总出现在未跟踪文件列表。通常它们都是些自动生成的文件,比如日志文件、编译过程中创建的临时文件等。 通过.gitignore文件 假设我们要忽略 lib.a 文件,那我们可以在 lib.a 所在目录下创建一个名为 .gi

取得 Git 仓库 —— Git 学习笔记 04

取得 Git 仓库 —— Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区、索引、本地版本库之间的交互;二是本地版本库和远程版本库之间的交互。第一块是基础,第二块是难点。 下面,我们就围绕着第一部分内容来学习,先不考虑远程仓库,只考虑本地仓库。 怎样取得项目的 Git 仓库? 有两种取得 Git 项目仓库的方法。第一种是在本地创建一个新的仓库,第二种是把其他地方的某个