google news recommendation - 基于点击行为的用户个性化新闻推荐

本文主要是介绍google news recommendation - 基于点击行为的用户个性化新闻推荐,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 摘要

2 简介
新闻阅读,随着互联网的发展,访问方式已经从订阅纸质媒体扩展到访问数目众多的网络新闻源。新闻聚集网站如google news、yahoo news,从不同的新闻网站采集数据,并提供一个聚合的视图。对于这样的新闻服务网站来说,一个严重的问题是文章的数目对于用户来说是巨大的。因此挑战是如何帮助用户找到他们感兴趣的新闻 (听上去好有诱惑力呀)
基于内容的推荐是解决信息过载问题的技术方案。基于兴趣和倾向的用户profile,系统为用户推荐感兴趣或带来价值的物品。
基于内容的方法,在推荐系统中扮演着核心的角色,因为它能够推荐以前并没有被评估过的信息,并且能够适应用户的个性上的差异。这项技术被应用在了不同的领域,如邮件、新闻、搜索等。在新闻领域,基于内容的推荐技术目标在于根据用户的兴趣聚合新闻,并且为每位用户创造一份属于自己的“新闻报纸” (想想一份报纸有什么内容,以及如何解决用户的问题,并让用户可信赖)

我们组合了基于内容的方法和之前开发的协同过滤的方法,来产生新闻访问的个性化推荐。组合方法在线上进行了评估:一部分Google News的线上流量使用了混合算法,结果表明有了较大提升。线上实验也揭露了一些有趣的话题,比如推荐、偶然访问、用户满意度等。

新闻阅读的自然属性,是新闻推荐与其它领域基于内容的推荐不同。当访问一个新闻站点,用户来寻找新的信息,这些信息是以前不知道的,甚至是带来惊喜的。
既然用户的profile是从过去的行为推断的,很重要的是要知道用户的新闻兴趣发生了改变,以及以过去的用户行为来预测将来的行为是否有效。

为了理解这个问题,我们实施了一个基于Google News的大规模的日志分析,来衡量用户新闻兴趣的稳定性。我们发现用户的兴趣随着时间有所变化,并且follow新闻事件的趋势。
基于这些发现,我们实现了一个贝叶斯模型,来预测:根据某个用户的行为,预测该用户的兴趣;根据一组用户的行为,预测新闻趋势。

为了推荐新闻给用户,系统考虑了用户的真实兴趣和新闻趋势。

因此用户将收到基于用户兴趣而裁剪的新闻,同时又不会错过重要的新闻事件,即使这些事件并不是严格的匹配用户的特殊兴趣。

本文的贡献有三方面:
(1)对用户新闻兴趣的一致性,进行了大规模的日志分析;(2)提出了一个基于组合了用户真实兴趣和新闻趋势的点击行为,来预测用户兴趣的新颖方法;(3)提出了一个基于内容推荐和协同过滤的组合个性化新闻推荐方法,并在真实流量上进行了实验,并取得了提高。

3 google新闻的个性化

4 相关工作

5 用户兴趣的日志分析

6 数据

7 点击分布
Google News把新闻文章分类到预先定义好的话题类别中,包括国际、体育、娱乐等。在日志分析中,我们会计算每个用户在每个类别中的点击分布。
我们将过去的时间分成12个月。因此对于每一个用户u,我们计算他在每个月t中的在各个主题列表中的点击分布D(u,t),用一个向量表示:

其中,Ni为分类到Ci中的文章的点击数。Ntotal为用户在过去时间段内总的点击数( 不是时间段t的总点击

8 不同时间用户的新闻兴趣变化

9 新闻趋势
除了单个用户的点击分布,我们还计算了不同国家地区的公众点击分布。对于每一个国家,公众兴趣可以用该地区用户、在过去时间段t的所有点击分布来表示。
Fiture2显示了美国人群的点击分布。为了阐明图示,只显示了四个分类。我们可以看出美国人群的公众兴趣是有波动的,其它国家的图示也是符合这一现象。一些分类的波动比如社会比健康等类别的波动更大。
我们假定一个国家公众兴趣的变化受该国重点事件影响,日志分析为这一假定提供了经验型证据。

10 热点事件对个体兴趣的影响

11 用户兴趣预测的贝叶斯模型
日志分析揭示单个用户的兴趣,受当地新闻趋势的影响。比如在欧洲杯期间,西班牙用户会点击更多的体育新闻。相似的现象,在针对用户的兴趣周期研究中报道过。基于这些发现,我们将用户的兴趣分成两部分:用户的真实兴趣和受当地新闻影响的兴趣。用户的真实兴趣由用户的特性产生,比如用户的性别、年龄、职业等,并且相对稳定。另一方面,在决定读什么的时候,用户受当地新闻影响。这种影响是短期的,并且随着时间容易改变。用户的真实兴趣和新闻影响分别对应于[1]中的长期兴趣和短期兴趣。我们使用更清晰的方法来预测用户的兴趣。更重要的,我们通过使用公众的点击模式,从新闻趋势的角度,为用户的短期兴趣建模,而不仅是用户的单独的反馈。

我们使用贝叶斯框架, 开发了一种方法,基于用户和用户所在地区的点击模式(click patterns),预测用户的当前兴趣。预测的兴趣在新闻推荐中使用。
方法如下:
(1)系统使用用户在过去每一段时间的点击,预测用户的真实兴趣,不管当前的新闻趋势;
(2)针对各个时间段的预测结果,组合起来得到一个更精确的用户的真是兴趣;
(3)系统通过用户的真实兴趣和当地的新闻趋势,预测用户的当前兴趣。

12 用户真实新闻兴趣的预测
对于过去每个特定的时间段t,我们得到某个用户的点击分布D(u,t),以及该地区内所有用户的点击分布D(t),代表了该地区的新闻趋势。
我们要从D(u,t)中挖掘用户u的真实兴趣,而不受D(t)的影响。一个用户对某个类别Ci的真是兴趣建模为:

即用户点击类别Ci的概率。使用贝叶斯规则,上述公式计算为:

其中:


13 用户当前新闻兴趣的预测

14 新闻推荐

15 线上流量实验

16 结论和后续工作

这篇关于google news recommendation - 基于点击行为的用户个性化新闻推荐的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/506127

相关文章

TP-Link PDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务

《TP-LinkPDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务》近期,路由器制造巨头普联(TP-Link)在用户群体中引发了一系列重要变动,上个月,公司发出了一则通知,明确要求所... 路由器厂商普联(TP-Link)上个月发布公告要求所有用户必须完成实名认证后才能继续使用普联提供的 D

MySQL 缓存机制与架构解析(最新推荐)

《MySQL缓存机制与架构解析(最新推荐)》本文详细介绍了MySQL的缓存机制和整体架构,包括一级缓存(InnoDBBufferPool)和二级缓存(QueryCache),文章还探讨了SQL... 目录一、mysql缓存机制概述二、MySQL整体架构三、SQL查询执行全流程四、MySQL 8.0为何移除查

MySql9.1.0安装详细教程(最新推荐)

《MySql9.1.0安装详细教程(最新推荐)》MySQL是一个流行的关系型数据库管理系统,支持多线程和多种数据库连接途径,能够处理上千万条记录的大型数据库,本文介绍MySql9.1.0安装详细教程,... 目录mysql介绍:一、下载 Mysql 安装文件二、Mysql 安装教程三、环境配置1.右击此电脑

Oracle数据库如何切换登录用户(system和sys)

《Oracle数据库如何切换登录用户(system和sys)》文章介绍了如何使用SQL*Plus工具登录Oracle数据库的system用户,包括打开登录入口、输入用户名和口令、以及切换到sys用户的... 目录打开登录入口登录system用户总结打开登录入口win+R打开运行对话框,输php入:sqlp

在 Windows 上安装 DeepSeek 的完整指南(最新推荐)

《在Windows上安装DeepSeek的完整指南(最新推荐)》在Windows上安装DeepSeek的完整指南,包括下载和安装Ollama、下载DeepSeekRXNUMX模型、运行Deep... 目录在www.chinasem.cn Windows 上安装 DeepSeek 的完整指南步骤 1:下载并安装

深入理解Apache Airflow 调度器(最新推荐)

《深入理解ApacheAirflow调度器(最新推荐)》ApacheAirflow调度器是数据管道管理系统的关键组件,负责编排dag中任务的执行,通过理解调度器的角色和工作方式,正确配置调度器,并... 目录什么是Airflow 调度器?Airflow 调度器工作机制配置Airflow调度器调优及优化建议最

Spring Boot统一异常拦截实践指南(最新推荐)

《SpringBoot统一异常拦截实践指南(最新推荐)》本文介绍了SpringBoot中统一异常处理的重要性及实现方案,包括使用`@ControllerAdvice`和`@ExceptionHand... 目录Spring Boot统一异常拦截实践指南一、为什么需要统一异常处理二、核心实现方案1. 基础组件

数据库oracle用户密码过期查询及解决方案

《数据库oracle用户密码过期查询及解决方案》:本文主要介绍如何处理ORACLE数据库用户密码过期和修改密码期限的问题,包括创建用户、赋予权限、修改密码、解锁用户和设置密码期限,文中通过代码介绍... 目录前言一、创建用户、赋予权限、修改密码、解锁用户和设置期限二、查询用户密码期限和过期后的修改1.查询用

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe