推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)

本文主要是介绍推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:https://zhuanlan.zhihu.com/p/272792754

推荐系统存在 popularity bias,即少部分物品被频繁曝光。系统记录下频繁曝光的日志,并基于日志数据制定推荐策略,这种反馈链路(Feedback Loop)进一步放大推荐系统的popularity bias,从而对推荐多样性、挖掘用户真实兴趣、用户体验等有着不利影响。引起popularity bias问题的原因可能有以下两个方面:

1、数据bias:数据本身就存在严重bias,头部物品占了绝大多数曝光。

2、算法bias:算法把头部物品频繁推荐给用户,使得数据bias进一步放大。

动态来看,用户与头部物品频繁交互,这会使得算法bias与数据bias进一步放大,这对小众兴趣的用户影响更为不利。接下来我们结合Facebook的研究探讨下popularity bias与Feedback Loop[1]。

popularity bias & Feedback Loop

Facebook在MovieLens数据集上模拟了UserKNN、BPR、MostPopular三种算法(在此不再介绍这三种算法)对popularity bias放大作用,发现了如下现象:

1、由于Feedback Loop的原因,三种算法的推荐列表流行度随着迭代次数增加而不断变大,可以看出,流行度大的物品曝光机会越来越大。[图2左侧]

2、由于popularity bias逐渐变大,长尾物品更难以获得曝光机会,因此aggregate diversity(至少在推荐列表中出现一次的物品数量所占比例)逐渐变小。[图2右侧]

popularity bias对系统的影响

由于系统存在popularity bias,曝光给用户的物品会越来越同质。由于用户只能与少数头部物品进行交互,进而会影响用户偏好画像的更新,这种偏好画像的更新有可能是被动地,不能反映用户真实的兴趣。另外,从用户分组角度看,用户量大的兴趣组会“同化”用户量少的兴趣组,这是因为用户量大的兴趣组产生大量行为数据,进而使得模型或者策略偏向用户量大的兴趣组,忽略人数少的兴趣组。Facebook通过实验进行了探讨。

1、用户偏好画像的“漂移”:Facebook以用户点评过的电影类别分布作为用户偏好,以Kullback-Leibler divergence (KLD) 度量两个分布之间的距离,KLD值越大,两个分布之间差异就越大。随着模拟迭代次数增大,当前用户偏好与最初的用户偏好(训练集中用户点评过的电影类别的分布)之间的KLD值逐渐变大,即用户偏好发生了漂移。如果用户兴趣漂移是被动的,比如系统存在严重的popularity bias,使得用户只能看到少数的头部物品,用户“被迫点击”,长期以往,可能不会捕捉到用户真正的兴趣。[图3左侧]

2、同质化问题:存在两种情况对用户偏好漂移有影响:其一,系统对用户多样性兴趣进行探索;其二,系统popularity bias严重,展现给用户的物品都是一些头部物品,使得不同用户的兴趣画像越来越相似,总体兴趣分布越来越趋向于多数用户兴趣,少量用户兴趣被淹没。在MovieLens数据集中:4331个男性用户贡献了753769个点评,1709个女性用户贡献了246440个点评,由此可见,男性用户占大多数。Facebook通过模拟 实验发现,随着迭代次数增加,男性用户与女性用户的兴趣偏好向量之间的KLD值逐渐变小,系统同质化加重[图3右侧]。那么,是男性用户把女性用户“同化”了,还是女性用户把男性用户“同化”了呢?Facebook通过度量每一轮迭代男性用户偏好分布与整体用户初始偏好分布 以及 女性用户偏好分布与整体用户初始偏好分布之间的KDL值发现,女性用户与整体用户之间的KDL值逐渐变小,说明女性用户与整体用户之间的偏好差异越来越小,原因是男性用户与整体用户偏好分布接近,在迭代的过程中,展现给女性用户的物品受男性用户行为的影响较大,使得女性用户偏好越来越接近整体用户的偏好。男性用户与整体用户之间的KDL值略有增长,因为男性用户的偏好分布在迭代过程中略有变化[图4左侧]。Facebook通过实验发现,随着迭代次数增大,女性用户当前偏好分布与原始偏好分布KDL值变化较为明显,男性用户变化幅度较小[图4右侧]。

业务与思考

偏置本身并不是问题,问题是偏置对我们的业务目标产生了负面影响。因此,我们要充分理解业务,以业务角度去看待偏置、分析偏置,进而解决偏置。在理解业务前提下,按照什么维度对用户分组、按照什么维度度量流行度、怎么维护小众用户利益都是我们需要深思的问题。

THX

这篇关于推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/700104

相关文章

mysql的基础语句和外键查询及其语句详解(推荐)

《mysql的基础语句和外键查询及其语句详解(推荐)》:本文主要介绍mysql的基础语句和外键查询及其语句详解(推荐),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋... 目录一、mysql 基础语句1. 数据库操作 创建数据库2. 表操作 创建表3. CRUD 操作二、外键

利用Python快速搭建Markdown笔记发布系统

《利用Python快速搭建Markdown笔记发布系统》这篇文章主要为大家详细介绍了使用Python生态的成熟工具,在30分钟内搭建一个支持Markdown渲染、分类标签、全文搜索的私有化知识发布系统... 目录引言:为什么要自建知识博客一、技术选型:极简主义开发栈二、系统架构设计三、核心代码实现(分步解析

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

查看Oracle数据库中UNDO表空间的使用情况(最新推荐)

《查看Oracle数据库中UNDO表空间的使用情况(最新推荐)》Oracle数据库中查看UNDO表空间使用情况的4种方法:DBA_TABLESPACES和DBA_DATA_FILES提供基本信息,V$... 目录1. 通过 DBjavascriptA_TABLESPACES 和 DBA_DATA_FILES

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言