google news recommendation - 基于点击行为的用户个性化新闻推荐

本文主要是介绍google news recommendation - 基于点击行为的用户个性化新闻推荐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 摘要

2 简介
新闻阅读,随着互联网的发展,访问方式已经从订阅纸质媒体扩展到访问数目众多的网络新闻源。新闻聚集网站如google news、yahoo news,从不同的新闻网站采集数据,并提供一个聚合的视图。对于这样的新闻服务网站来说,一个严重的问题是文章的数目对于用户来说是巨大的。因此挑战是如何帮助用户找到他们感兴趣的新闻 (听上去好有诱惑力呀)
基于内容的推荐是解决信息过载问题的技术方案。基于兴趣和倾向的用户profile,系统为用户推荐感兴趣或带来价值的物品。
基于内容的方法,在推荐系统中扮演着核心的角色,因为它能够推荐以前并没有被评估过的信息,并且能够适应用户的个性上的差异。这项技术被应用在了不同的领域,如邮件、新闻、搜索等。在新闻领域,基于内容的推荐技术目标在于根据用户的兴趣聚合新闻,并且为每位用户创造一份属于自己的“新闻报纸” (想想一份报纸有什么内容,以及如何解决用户的问题,并让用户可信赖)

我们组合了基于内容的方法和之前开发的协同过滤的方法,来产生新闻访问的个性化推荐。组合方法在线上进行了评估:一部分Google News的线上流量使用了混合算法,结果表明有了较大提升。线上实验也揭露了一些有趣的话题,比如推荐、偶然访问、用户满意度等。

新闻阅读的自然属性,是新闻推荐与其它领域基于内容的推荐不同。当访问一个新闻站点,用户来寻找新的信息,这些信息是以前不知道的,甚至是带来惊喜的。
既然用户的profile是从过去的行为推断的,很重要的是要知道用户的新闻兴趣发生了改变,以及以过去的用户行为来预测将来的行为是否有效。

为了理解这个问题,我们实施了一个基于Google News的大规模的日志分析,来衡量用户新闻兴趣的稳定性。我们发现用户的兴趣随着时间有所变化,并且follow新闻事件的趋势。
基于这些发现,我们实现了一个贝叶斯模型,来预测:根据某个用户的行为,预测该用户的兴趣;根据一组用户的行为,预测新闻趋势。

为了推荐新闻给用户,系统考虑了用户的真实兴趣和新闻趋势。

因此用户将收到基于用户兴趣而裁剪的新闻,同时又不会错过重要的新闻事件,即使这些事件并不是严格的匹配用户的特殊兴趣。

本文的贡献有三方面:
(1)对用户新闻兴趣的一致性,进行了大规模的日志分析;(2)提出了一个基于组合了用户真实兴趣和新闻趋势的点击行为,来预测用户兴趣的新颖方法;(3)提出了一个基于内容推荐和协同过滤的组合个性化新闻推荐方法,并在真实流量上进行了实验,并取得了提高。

3 google新闻的个性化

4 相关工作

5 用户兴趣的日志分析

6 数据

7 点击分布
Google News把新闻文章分类到预先定义好的话题类别中,包括国际、体育、娱乐等。在日志分析中,我们会计算每个用户在每个类别中的点击分布。
我们将过去的时间分成12个月。因此对于每一个用户u,我们计算他在每个月t中的在各个主题列表中的点击分布D(u,t),用一个向量表示:

其中,Ni为分类到Ci中的文章的点击数。Ntotal为用户在过去时间段内总的点击数( 不是时间段t的总点击

8 不同时间用户的新闻兴趣变化

9 新闻趋势
除了单个用户的点击分布,我们还计算了不同国家地区的公众点击分布。对于每一个国家,公众兴趣可以用该地区用户、在过去时间段t的所有点击分布来表示。
Fiture2显示了美国人群的点击分布。为了阐明图示,只显示了四个分类。我们可以看出美国人群的公众兴趣是有波动的,其它国家的图示也是符合这一现象。一些分类的波动比如社会比健康等类别的波动更大。
我们假定一个国家公众兴趣的变化受该国重点事件影响,日志分析为这一假定提供了经验型证据。

10 热点事件对个体兴趣的影响

11 用户兴趣预测的贝叶斯模型
日志分析揭示单个用户的兴趣,受当地新闻趋势的影响。比如在欧洲杯期间,西班牙用户会点击更多的体育新闻。相似的现象,在针对用户的兴趣周期研究中报道过。基于这些发现,我们将用户的兴趣分成两部分:用户的真实兴趣和受当地新闻影响的兴趣。用户的真实兴趣由用户的特性产生,比如用户的性别、年龄、职业等,并且相对稳定。另一方面,在决定读什么的时候,用户受当地新闻影响。这种影响是短期的,并且随着时间容易改变。用户的真实兴趣和新闻影响分别对应于[1]中的长期兴趣和短期兴趣。我们使用更清晰的方法来预测用户的兴趣。更重要的,我们通过使用公众的点击模式,从新闻趋势的角度,为用户的短期兴趣建模,而不仅是用户的单独的反馈。

我们使用贝叶斯框架, 开发了一种方法,基于用户和用户所在地区的点击模式(click patterns),预测用户的当前兴趣。预测的兴趣在新闻推荐中使用。
方法如下:
(1)系统使用用户在过去每一段时间的点击,预测用户的真实兴趣,不管当前的新闻趋势;
(2)针对各个时间段的预测结果,组合起来得到一个更精确的用户的真是兴趣;
(3)系统通过用户的真实兴趣和当地的新闻趋势,预测用户的当前兴趣。

12 用户真实新闻兴趣的预测
对于过去每个特定的时间段t,我们得到某个用户的点击分布D(u,t),以及该地区内所有用户的点击分布D(t),代表了该地区的新闻趋势。
我们要从D(u,t)中挖掘用户u的真实兴趣,而不受D(t)的影响。一个用户对某个类别Ci的真是兴趣建模为:

即用户点击类别Ci的概率。使用贝叶斯规则,上述公式计算为:

其中:


13 用户当前新闻兴趣的预测

14 新闻推荐

15 线上流量实验

16 结论和后续工作

这篇关于google news recommendation - 基于点击行为的用户个性化新闻推荐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506127

相关文章

Knife4j+Axios+Redis前后端分离架构下的 API 管理与会话方案(最新推荐)

《Knife4j+Axios+Redis前后端分离架构下的API管理与会话方案(最新推荐)》本文主要介绍了Swagger与Knife4j的配置要点、前后端对接方法以及分布式Session实现原理,... 目录一、Swagger 与 Knife4j 的深度理解及配置要点Knife4j 配置关键要点1.Spri

Qt QCustomPlot库简介(最新推荐)

《QtQCustomPlot库简介(最新推荐)》QCustomPlot是一款基于Qt的高性能C++绘图库,专为二维数据可视化设计,它具有轻量级、实时处理百万级数据和多图层支持等特点,适用于科学计算、... 目录核心特性概览核心组件解析1.绘图核心 (QCustomPlot类)2.数据容器 (QCPDataC

Java内存分配与JVM参数详解(推荐)

《Java内存分配与JVM参数详解(推荐)》本文详解JVM内存结构与参数调整,涵盖堆分代、元空间、GC选择及优化策略,帮助开发者提升性能、避免内存泄漏,本文给大家介绍Java内存分配与JVM参数详解,... 目录引言JVM内存结构JVM参数概述堆内存分配年轻代与老年代调整堆内存大小调整年轻代与老年代比例元空

深度解析Java DTO(最新推荐)

《深度解析JavaDTO(最新推荐)》DTO(DataTransferObject)是一种用于在不同层(如Controller层、Service层)之间传输数据的对象设计模式,其核心目的是封装数据,... 目录一、什么是DTO?DTO的核心特点:二、为什么需要DTO?(对比Entity)三、实际应用场景解析

Go语言中nil判断的注意事项(最新推荐)

《Go语言中nil判断的注意事项(最新推荐)》本文给大家介绍Go语言中nil判断的注意事项,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.接口变量的特殊行为2.nil的合法类型3.nil值的实用行为4.自定义类型与nil5.反射判断nil6.函数返回的

python 常见数学公式函数使用详解(最新推荐)

《python常见数学公式函数使用详解(最新推荐)》文章介绍了Python的数学计算工具,涵盖内置函数、math/cmath标准库及numpy/scipy/sympy第三方库,支持从基础算术到复杂数... 目录python 数学公式与函数大全1. 基本数学运算1.1 算术运算1.2 分数与小数2. 数学函数

Python Pillow 库详解文档(最新推荐)

《PythonPillow库详解文档(最新推荐)》Pillow是Python中最流行的图像处理库,它是PythonImagingLibrary(PIL)的现代分支和继承者,本文给大家介绍Pytho... 目录python Pillow 库详解文档简介安装核心模块架构Image 模块 - 核心图像处理基本导入

SpringSecurity显示用户账号已被锁定的原因及解决方案

《SpringSecurity显示用户账号已被锁定的原因及解决方案》SpringSecurity中用户账号被锁定问题源于UserDetails接口方法返回值错误,解决方案是修正isAccountNon... 目录SpringSecurity显示用户账号已被锁定的解决方案1.问题出现前的工作2.问题出现原因各

MySQL 用户创建与授权最佳实践

《MySQL用户创建与授权最佳实践》在MySQL中,用户管理和权限控制是数据库安全的重要组成部分,下面详细介绍如何在MySQL中创建用户并授予适当的权限,感兴趣的朋友跟随小编一起看看吧... 目录mysql 用户创建与授权详解一、MySQL用户管理基础1. 用户账户组成2. 查看现有用户二、创建用户1. 基

CSS Anchor Positioning重新定义锚点定位的时代来临(最新推荐)

《CSSAnchorPositioning重新定义锚点定位的时代来临(最新推荐)》CSSAnchorPositioning是一项仍在草案中的新特性,由Chrome125开始提供原生支持需... 目录 css Anchor Positioning:重新定义「锚定定位」的时代来了! 什么是 Anchor Pos