google news recommendation - 基于点击行为的用户个性化新闻推荐

本文主要是介绍google news recommendation - 基于点击行为的用户个性化新闻推荐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 摘要

2 简介
新闻阅读,随着互联网的发展,访问方式已经从订阅纸质媒体扩展到访问数目众多的网络新闻源。新闻聚集网站如google news、yahoo news,从不同的新闻网站采集数据,并提供一个聚合的视图。对于这样的新闻服务网站来说,一个严重的问题是文章的数目对于用户来说是巨大的。因此挑战是如何帮助用户找到他们感兴趣的新闻 (听上去好有诱惑力呀)
基于内容的推荐是解决信息过载问题的技术方案。基于兴趣和倾向的用户profile,系统为用户推荐感兴趣或带来价值的物品。
基于内容的方法,在推荐系统中扮演着核心的角色,因为它能够推荐以前并没有被评估过的信息,并且能够适应用户的个性上的差异。这项技术被应用在了不同的领域,如邮件、新闻、搜索等。在新闻领域,基于内容的推荐技术目标在于根据用户的兴趣聚合新闻,并且为每位用户创造一份属于自己的“新闻报纸” (想想一份报纸有什么内容,以及如何解决用户的问题,并让用户可信赖)

我们组合了基于内容的方法和之前开发的协同过滤的方法,来产生新闻访问的个性化推荐。组合方法在线上进行了评估:一部分Google News的线上流量使用了混合算法,结果表明有了较大提升。线上实验也揭露了一些有趣的话题,比如推荐、偶然访问、用户满意度等。

新闻阅读的自然属性,是新闻推荐与其它领域基于内容的推荐不同。当访问一个新闻站点,用户来寻找新的信息,这些信息是以前不知道的,甚至是带来惊喜的。
既然用户的profile是从过去的行为推断的,很重要的是要知道用户的新闻兴趣发生了改变,以及以过去的用户行为来预测将来的行为是否有效。

为了理解这个问题,我们实施了一个基于Google News的大规模的日志分析,来衡量用户新闻兴趣的稳定性。我们发现用户的兴趣随着时间有所变化,并且follow新闻事件的趋势。
基于这些发现,我们实现了一个贝叶斯模型,来预测:根据某个用户的行为,预测该用户的兴趣;根据一组用户的行为,预测新闻趋势。

为了推荐新闻给用户,系统考虑了用户的真实兴趣和新闻趋势。

因此用户将收到基于用户兴趣而裁剪的新闻,同时又不会错过重要的新闻事件,即使这些事件并不是严格的匹配用户的特殊兴趣。

本文的贡献有三方面:
(1)对用户新闻兴趣的一致性,进行了大规模的日志分析;(2)提出了一个基于组合了用户真实兴趣和新闻趋势的点击行为,来预测用户兴趣的新颖方法;(3)提出了一个基于内容推荐和协同过滤的组合个性化新闻推荐方法,并在真实流量上进行了实验,并取得了提高。

3 google新闻的个性化

4 相关工作

5 用户兴趣的日志分析

6 数据

7 点击分布
Google News把新闻文章分类到预先定义好的话题类别中,包括国际、体育、娱乐等。在日志分析中,我们会计算每个用户在每个类别中的点击分布。
我们将过去的时间分成12个月。因此对于每一个用户u,我们计算他在每个月t中的在各个主题列表中的点击分布D(u,t),用一个向量表示:

其中,Ni为分类到Ci中的文章的点击数。Ntotal为用户在过去时间段内总的点击数( 不是时间段t的总点击

8 不同时间用户的新闻兴趣变化

9 新闻趋势
除了单个用户的点击分布,我们还计算了不同国家地区的公众点击分布。对于每一个国家,公众兴趣可以用该地区用户、在过去时间段t的所有点击分布来表示。
Fiture2显示了美国人群的点击分布。为了阐明图示,只显示了四个分类。我们可以看出美国人群的公众兴趣是有波动的,其它国家的图示也是符合这一现象。一些分类的波动比如社会比健康等类别的波动更大。
我们假定一个国家公众兴趣的变化受该国重点事件影响,日志分析为这一假定提供了经验型证据。

10 热点事件对个体兴趣的影响

11 用户兴趣预测的贝叶斯模型
日志分析揭示单个用户的兴趣,受当地新闻趋势的影响。比如在欧洲杯期间,西班牙用户会点击更多的体育新闻。相似的现象,在针对用户的兴趣周期研究中报道过。基于这些发现,我们将用户的兴趣分成两部分:用户的真实兴趣和受当地新闻影响的兴趣。用户的真实兴趣由用户的特性产生,比如用户的性别、年龄、职业等,并且相对稳定。另一方面,在决定读什么的时候,用户受当地新闻影响。这种影响是短期的,并且随着时间容易改变。用户的真实兴趣和新闻影响分别对应于[1]中的长期兴趣和短期兴趣。我们使用更清晰的方法来预测用户的兴趣。更重要的,我们通过使用公众的点击模式,从新闻趋势的角度,为用户的短期兴趣建模,而不仅是用户的单独的反馈。

我们使用贝叶斯框架, 开发了一种方法,基于用户和用户所在地区的点击模式(click patterns),预测用户的当前兴趣。预测的兴趣在新闻推荐中使用。
方法如下:
(1)系统使用用户在过去每一段时间的点击,预测用户的真实兴趣,不管当前的新闻趋势;
(2)针对各个时间段的预测结果,组合起来得到一个更精确的用户的真是兴趣;
(3)系统通过用户的真实兴趣和当地的新闻趋势,预测用户的当前兴趣。

12 用户真实新闻兴趣的预测
对于过去每个特定的时间段t,我们得到某个用户的点击分布D(u,t),以及该地区内所有用户的点击分布D(t),代表了该地区的新闻趋势。
我们要从D(u,t)中挖掘用户u的真实兴趣,而不受D(t)的影响。一个用户对某个类别Ci的真是兴趣建模为:

即用户点击类别Ci的概率。使用贝叶斯规则,上述公式计算为:

其中:


13 用户当前新闻兴趣的预测

14 新闻推荐

15 线上流量实验

16 结论和后续工作

这篇关于google news recommendation - 基于点击行为的用户个性化新闻推荐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506127

相关文章

Vue项目的甘特图组件之dhtmlx-gantt使用教程和实现效果展示(推荐)

《Vue项目的甘特图组件之dhtmlx-gantt使用教程和实现效果展示(推荐)》文章介绍了如何使用dhtmlx-gantt组件来实现公司的甘特图需求,并提供了一个简单的Vue组件示例,文章还分享了一... 目录一、首先 npm 安装插件二、创建一个vue组件三、业务页面内 引用自定义组件:四、dhtmlx

前端 CSS 动态设置样式::class、:style 等技巧(推荐)

《前端CSS动态设置样式::class、:style等技巧(推荐)》:本文主要介绍了Vue.js中动态绑定类名和内联样式的两种方法:对象语法和数组语法,通过对象语法,可以根据条件动态切换类名或样式;通过数组语法,可以同时绑定多个类名或样式,此外,还可以结合计算属性来生成复杂的类名或样式对象,详细内容请阅读本文,希望能对你有所帮助...

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

Java中实现订单超时自动取消功能(最新推荐)

《Java中实现订单超时自动取消功能(最新推荐)》本文介绍了Java中实现订单超时自动取消功能的几种方法,包括定时任务、JDK延迟队列、Redis过期监听、Redisson分布式延迟队列、Rocket... 目录1、定时任务2、JDK延迟队列 DelayQueue(1)定义实现Delayed接口的实体类 (

shell脚本自动删除30天以前的文件(最新推荐)

《shell脚本自动删除30天以前的文件(最新推荐)》该文章介绍了如何使用Shell脚本自动删除指定目录下30天以前的文件,并通过crontab设置定时任务,此外,还提供了如何使用Shell脚本删除E... 目录shell脚本自动删除30天以前的文件linux按照日期定时删除elasticsearch索引s

TP-Link PDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务

《TP-LinkPDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务》近期,路由器制造巨头普联(TP-Link)在用户群体中引发了一系列重要变动,上个月,公司发出了一则通知,明确要求所... 路由器厂商普联(TP-Link)上个月发布公告要求所有用户必须完成实名认证后才能继续使用普联提供的 D

MySQL 缓存机制与架构解析(最新推荐)

《MySQL缓存机制与架构解析(最新推荐)》本文详细介绍了MySQL的缓存机制和整体架构,包括一级缓存(InnoDBBufferPool)和二级缓存(QueryCache),文章还探讨了SQL... 目录一、mysql缓存机制概述二、MySQL整体架构三、SQL查询执行全流程四、MySQL 8.0为何移除查

MySql9.1.0安装详细教程(最新推荐)

《MySql9.1.0安装详细教程(最新推荐)》MySQL是一个流行的关系型数据库管理系统,支持多线程和多种数据库连接途径,能够处理上千万条记录的大型数据库,本文介绍MySql9.1.0安装详细教程,... 目录mysql介绍:一、下载 Mysql 安装文件二、Mysql 安装教程三、环境配置1.右击此电脑

Oracle数据库如何切换登录用户(system和sys)

《Oracle数据库如何切换登录用户(system和sys)》文章介绍了如何使用SQL*Plus工具登录Oracle数据库的system用户,包括打开登录入口、输入用户名和口令、以及切换到sys用户的... 目录打开登录入口登录system用户总结打开登录入口win+R打开运行对话框,输php入:sqlp

在 Windows 上安装 DeepSeek 的完整指南(最新推荐)

《在Windows上安装DeepSeek的完整指南(最新推荐)》在Windows上安装DeepSeek的完整指南,包括下载和安装Ollama、下载DeepSeekRXNUMX模型、运行Deep... 目录在www.chinasem.cn Windows 上安装 DeepSeek 的完整指南步骤 1:下载并安装