本文主要是介绍推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
转自:https://zhuanlan.zhihu.com/p/272792754
推荐系统存在 popularity bias,即少部分物品被频繁曝光。系统记录下频繁曝光的日志,并基于日志数据制定推荐策略,这种反馈链路(Feedback Loop)进一步放大推荐系统的popularity bias,从而对推荐多样性、挖掘用户真实兴趣、用户体验等有着不利影响。引起popularity bias问题的原因可能有以下两个方面:
1、数据bias:数据本身就存在严重bias,头部物品占了绝大多数曝光。
2、算法bias:算法把头部物品频繁推荐给用户,使得数据bias进一步放大。
动态来看,用户与头部物品频繁交互,这会使得算法bias与数据bias进一步放大,这对小众兴趣的用户影响更为不利。接下来我们结合Facebook的研究探讨下popularity bias与Feedback Loop[1]。
popularity bias & Feedback Loop
Facebook在MovieLens数据集上模拟了UserKNN、BPR、MostPopular三种算法(在此不再介绍这三种算法)对popularity bias放大作用,发现了如下现象:
1、由于Feedback Loop的原因,三种算法的推荐列表流行度随着迭代次数增加而不断变大,可以看出,流行度大的物品曝光机会越来越大。[图2左侧]
2、由于popularity bias逐渐变大,长尾物品更难以获得曝光机会,因此aggregate diversity(至少在推荐列表中出现一次的物品数量所占比例)逐渐变小。[图2右侧]
popularity bias对系统的影响
由于系统存在popularity bias,曝光给用户的物品会越来越同质。由于用户只能与少数头部物品进行交互,进而会影响用户偏好画像的更新,这种偏好画像的更新有可能是被动地,不能反映用户真实的兴趣。另外,从用户分组角度看,用户量大的兴趣组会“同化”用户量少的兴趣组,这是因为用户量大的兴趣组产生大量行为数据,进而使得模型或者策略偏向用户量大的兴趣组,忽略人数少的兴趣组。Facebook通过实验进行了探讨。
1、用户偏好画像的“漂移”:Facebook以用户点评过的电影类别分布作为用户偏好,以Kullback-Leibler divergence (KLD) 度量两个分布之间的距离,KLD值越大,两个分布之间差异就越大。随着模拟迭代次数增大,当前用户偏好与最初的用户偏好(训练集中用户点评过的电影类别的分布)之间的KLD值逐渐变大,即用户偏好发生了漂移。如果用户兴趣漂移是被动的,比如系统存在严重的popularity bias,使得用户只能看到少数的头部物品,用户“被迫点击”,长期以往,可能不会捕捉到用户真正的兴趣。[图3左侧]
2、同质化问题:存在两种情况对用户偏好漂移有影响:其一,系统对用户多样性兴趣进行探索;其二,系统popularity bias严重,展现给用户的物品都是一些头部物品,使得不同用户的兴趣画像越来越相似,总体兴趣分布越来越趋向于多数用户兴趣,少量用户兴趣被淹没。在MovieLens数据集中:4331个男性用户贡献了753769个点评,1709个女性用户贡献了246440个点评,由此可见,男性用户占大多数。Facebook通过模拟 实验发现,随着迭代次数增加,男性用户与女性用户的兴趣偏好向量之间的KLD值逐渐变小,系统同质化加重[图3右侧]。那么,是男性用户把女性用户“同化”了,还是女性用户把男性用户“同化”了呢?Facebook通过度量每一轮迭代男性用户偏好分布与整体用户初始偏好分布 以及 女性用户偏好分布与整体用户初始偏好分布之间的KDL值发现,女性用户与整体用户之间的KDL值逐渐变小,说明女性用户与整体用户之间的偏好差异越来越小,原因是男性用户与整体用户偏好分布接近,在迭代的过程中,展现给女性用户的物品受男性用户行为的影响较大,使得女性用户偏好越来越接近整体用户的偏好。男性用户与整体用户之间的KDL值略有增长,因为男性用户的偏好分布在迭代过程中略有变化[图4左侧]。Facebook通过实验发现,随着迭代次数增大,女性用户当前偏好分布与原始偏好分布KDL值变化较为明显,男性用户变化幅度较小[图4右侧]。
业务与思考
偏置本身并不是问题,问题是偏置对我们的业务目标产生了负面影响。因此,我们要充分理解业务,以业务角度去看待偏置、分析偏置,进而解决偏置。在理解业务前提下,按照什么维度对用户分组、按照什么维度度量流行度、怎么维护小众用户利益都是我们需要深思的问题。
THX
这篇关于推荐系统漫谈之流行度偏置(popularity bias)与数据链路(Feedback Loop)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!