推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)

本文主要是介绍推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自:https://zhuanlan.zhihu.com/p/272792754

推荐系统存在 popularity bias,即少部分物品被频繁曝光。系统记录下频繁曝光的日志,并基于日志数据制定推荐策略,这种反馈链路(Feedback Loop)进一步放大推荐系统的popularity bias,从而对推荐多样性、挖掘用户真实兴趣、用户体验等有着不利影响。引起popularity bias问题的原因可能有以下两个方面:

1、数据bias:数据本身就存在严重bias,头部物品占了绝大多数曝光。

2、算法bias:算法把头部物品频繁推荐给用户,使得数据bias进一步放大。

动态来看,用户与头部物品频繁交互,这会使得算法bias与数据bias进一步放大,这对小众兴趣的用户影响更为不利。接下来我们结合Facebook的研究探讨下popularity bias与Feedback Loop[1]。

popularity bias & Feedback Loop

Facebook在MovieLens数据集上模拟了UserKNN、BPR、MostPopular三种算法(在此不再介绍这三种算法)对popularity bias放大作用,发现了如下现象:

1、由于Feedback Loop的原因,三种算法的推荐列表流行度随着迭代次数增加而不断变大,可以看出,流行度大的物品曝光机会越来越大。[图2左侧]

2、由于popularity bias逐渐变大,长尾物品更难以获得曝光机会,因此aggregate diversity(至少在推荐列表中出现一次的物品数量所占比例)逐渐变小。[图2右侧]

popularity bias对系统的影响

由于系统存在popularity bias,曝光给用户的物品会越来越同质。由于用户只能与少数头部物品进行交互,进而会影响用户偏好画像的更新,这种偏好画像的更新有可能是被动地,不能反映用户真实的兴趣。另外,从用户分组角度看,用户量大的兴趣组会“同化”用户量少的兴趣组,这是因为用户量大的兴趣组产生大量行为数据,进而使得模型或者策略偏向用户量大的兴趣组,忽略人数少的兴趣组。Facebook通过实验进行了探讨。

1、用户偏好画像的“漂移”:Facebook以用户点评过的电影类别分布作为用户偏好,以Kullback-Leibler divergence (KLD) 度量两个分布之间的距离,KLD值越大,两个分布之间差异就越大。随着模拟迭代次数增大,当前用户偏好与最初的用户偏好(训练集中用户点评过的电影类别的分布)之间的KLD值逐渐变大,即用户偏好发生了漂移。如果用户兴趣漂移是被动的,比如系统存在严重的popularity bias,使得用户只能看到少数的头部物品,用户“被迫点击”,长期以往,可能不会捕捉到用户真正的兴趣。[图3左侧]

2、同质化问题:存在两种情况对用户偏好漂移有影响:其一,系统对用户多样性兴趣进行探索;其二,系统popularity bias严重,展现给用户的物品都是一些头部物品,使得不同用户的兴趣画像越来越相似,总体兴趣分布越来越趋向于多数用户兴趣,少量用户兴趣被淹没。在MovieLens数据集中:4331个男性用户贡献了753769个点评,1709个女性用户贡献了246440个点评,由此可见,男性用户占大多数。Facebook通过模拟 实验发现,随着迭代次数增加,男性用户与女性用户的兴趣偏好向量之间的KLD值逐渐变小,系统同质化加重[图3右侧]。那么,是男性用户把女性用户“同化”了,还是女性用户把男性用户“同化”了呢?Facebook通过度量每一轮迭代男性用户偏好分布与整体用户初始偏好分布 以及 女性用户偏好分布与整体用户初始偏好分布之间的KDL值发现,女性用户与整体用户之间的KDL值逐渐变小,说明女性用户与整体用户之间的偏好差异越来越小,原因是男性用户与整体用户偏好分布接近,在迭代的过程中,展现给女性用户的物品受男性用户行为的影响较大,使得女性用户偏好越来越接近整体用户的偏好。男性用户与整体用户之间的KDL值略有增长,因为男性用户的偏好分布在迭代过程中略有变化[图4左侧]。Facebook通过实验发现,随着迭代次数增大,女性用户当前偏好分布与原始偏好分布KDL值变化较为明显,男性用户变化幅度较小[图4右侧]。

业务与思考

偏置本身并不是问题,问题是偏置对我们的业务目标产生了负面影响。因此,我们要充分理解业务,以业务角度去看待偏置、分析偏置,进而解决偏置。在理解业务前提下,按照什么维度对用户分组、按照什么维度度量流行度、怎么维护小众用户利益都是我们需要深思的问题。

THX

这篇关于推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/700104

相关文章

通信系统网络架构_2.广域网网络架构

1.概述          通俗来讲,广域网是将分布于相比局域网络更广区域的计算机设备联接起来的网络。广域网由通信子网于资源子网组成。通信子网可以利用公用分组交换网、卫星通信网和无线分组交换网构建,将分布在不同地区的局域网或计算机系统互连起来,实现资源子网的共享。 2.网络组成          广域网属于多级网络,通常由骨干网、分布网、接入网组成。在网络规模较小时,可仅由骨干网和接入网组成

Linux系统稳定性的奥秘:探究其背后的机制与哲学

在计算机操作系统的世界里,Linux以其卓越的稳定性和可靠性著称,成为服务器、嵌入式系统乃至个人电脑用户的首选。那么,是什么造就了Linux如此之高的稳定性呢?本文将深入解析Linux系统稳定性的几个关键因素,揭示其背后的技术哲学与实践。 1. 开源协作的力量Linux是一个开源项目,意味着任何人都可以查看、修改和贡献其源代码。这种开放性吸引了全球成千上万的开发者参与到内核的维护与优化中,形成了

蓝牙ble数传芯片推荐,TD5327A芯片蓝牙5.1—拓达半导体

蓝牙数传芯片TD5327A芯片是一款支持蓝牙BLE的纯数传芯片,蓝牙5.1版本。芯片的亮点在于性能强,除了支持APP端直接对芯片做设置与查询操作,包括直接操作蓝牙芯片自身的IO与PWM口以外,还支持RTC日历功能,可以做各类定时类操作,极大丰富了蓝牙在IOT产品中的应用。此外,在数传应用方面,此芯片支持串口流控功能,提大提高了数据传输的稳定与可靠性。 拓达蓝牙芯片特点: 支持RTC日历功能,超

PS系统教程25

介绍软件 BR(bridge) PS 配套软件,方便素材整理、管理素材 作用:起到桥梁作用 注意:PS和BR尽量保持版本一致 下载和安装可通过CSDN社区搜索,有免费安装指导。 安装之后,我们打开照片只需双击照片,就自动在Ps软件中打开。 前提:电脑上有PS软件 三种预览格式 全屏预览 评星级 直接按数字键就可以 方向键可以更换图片 esc退出 幻灯片放

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

好书推荐《深度学习入门 基于Python的理论与实现》

如果你对Python有一定的了解,想对深度学习的基本概念和工作原理有一个透彻的理解,想利用Python编写出简单的深度学习程序,那么这本书绝对是最佳的入门教程,理由如下:     (1)撰写者是一名日本普通的AI工作者,主要记录了他在深度学习中的笔记,这本书站在学习者的角度考虑,秉承“解剖”深度学习的底层技术,不使用任何现有的深度学习框架、尽可能仅使用基本的数学知识和Python库。从零创建一个

Django 路由系统详解

Django 路由系统详解 引言 Django 是一个高级 Python Web 框架,它鼓励快速开发和干净、实用的设计。在 Django 中,路由系统是其核心组件之一,负责将用户的请求映射到相应的视图函数或类。本文将深入探讨 Django 的路由系统,包括其工作原理、配置方式以及高级功能。 目录 路由基础URL 映射路由参数命名空间URL 反向解析路由分发include 路由路由修饰符自

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

OSG数学基础:坐标系统

坐标系是一个精确定位对象位置的框架,所有的图形变换都是基于一定的坐标系进行的。三维坐标系总体上可以分为两大类:左手坐标系和右手坐标系。常用的坐标系:世界坐标系、物体坐标系和摄像机坐标系。 世界坐标系 世界坐标系是一个特殊的坐标系,它建立了描述其他坐标系所需要的参考框架。从另一方面说,能够用世界坐标系来描述其他坐标系的位置,而不能用更大的、外部的坐标系来描述世界坐标系。世界坐标系也被广泛地

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网(IoT)技术的发展,远程监控系统在各个领域的应用越来越广泛。LoRaWAN(Long Range Wide Area Network)作为一种低功耗广域网通信协议,因其长距离传输、低功耗和高可靠性等特点,成为实现远程监控的理想选择。本文将详细介绍LoRaWAN的基本原理、应用场景,并通过一个具体的项目展示如何使用LoRaWAN实现远程监控系统。希望通过图文并茂的讲解,帮助读