快手+何向南团队最新论文Counterfactual Interactive Recommender System ,反事实推理融入离线强化学习,解决filter bubble/信息茧房问题

本文主要是介绍快手+何向南团队最新论文Counterfactual Interactive Recommender System ,反事实推理融入离线强化学习,解决filter bubble/信息茧房问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文名:CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System
在这里插入图片描述

目录

  • 链接
  • 1. 相关背景
    • 1.1 核心思想
  • 2. 实证分析
  • 3. 方法
    • 3.1 基本思想
    • 3.2 User Model
    • 3.2 State Tracker
    • 3.3 RL agent
    • 3.3 Real Environment
    • 3.4 因果模型
  • 4. 总结

链接

相关链接:
中科大+快手出品 CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析
论文链接在这里!
github 代码链接
高崇铭 作者主页

相关知识:
DeepFM模型
Transformer模型
PPO算法
DeepCTR库
Tianshou库

KuaiRec数据集相关链接:
CSDN讲解:KuaiRec | 快手首个稠密为99.6%的数据集 | 相关介绍、下载、处理、使用方法
论文:https://arxiv.org/abs/2202.10842
数据:https://rec.ustc.edu.cn/share/598635c0-9585-11ec-8259-414ede1f8d4f
代码:https://chongminggao.github.io/KuaiRec/
Example:http://m6z.cn/5U6xyQ
在这里插入图片描述

1. 相关背景

在这里插入图片描述
用户满意度/反馈收到用户内在兴趣(Intrinsic Interest)以及过曝光效应(Overexposure Effect)的影响,本篇论文将对二者进行解耦。
在这里插入图片描述

  1. 交互式推荐(interactive recommendation):如图(a)agent利用用户对推荐结果的反馈信息,学习一个在线算法策略(online policy),动态地调整推荐方案,代替人工指定规则下的静态推荐算法。
  2. 强化学习Reinforcement Learning)常被用于交互式推荐场景。智能体会在与用户的多次交互中,自动学习不同场景下的决策方式,从而追求特定的最优长期收益
  3. filter bubble:可以理解为信息茧房;如图(b),用户刚开始的偏好有Games两类Sports,但随着推荐系统的进一步参数更新和策略迭代,推荐的结果将慢慢被用户主流兴趣主导,只推荐游戏相关项目了。这种逐渐趋于单调的推荐结果会使得用户感到疲倦,从而对推荐系统产生不信任和厌倦
  4. 离线强化学习Offline RL):直接将图(a)部署到真实场景是不现实的,因为需要大量的真实用户参与模型训练过程;让用户与不成熟的系统交互,会严重影响用户体验,也会降低收益。这个时候就需要离线强化学习啦~ 如下图(c),我们先从离线数据学到一个策略,再将其放到线上场景部署。
    在这里插入图片描述

1.1 核心思想

致力于从源头上解决目前推荐策略中存在的信息茧房问题。将强化学习这种策略模型引入生产环境的同时,利用基于反事实模型的因果推理的技术,对用户偏好中的曝光效应进行显式建模,从而在自动迭代更新决策过程的同时,有效避免“越推越窄”问题。
如下图(c)所示,我们 ① 先从离线数据中学习到一个 causal user model;② 利用学习到的user model训练RL policy;③ 将RL policy部署到线上
在这里插入图片描述

2. 实证分析

为了验证exposure effect/filter bubble是真实存在的,即 “用户看多了相似的视频,满意度会降低”,作者在快手平台上做了一系列实验。

  1. 衡量满意度指标: ① 在评论区停留的时间 ② 视频观看比例
  2. 横轴:① 一小时内观看相似视频的数量 ② 从现在起到最后一次观看类似视频的时间间隔。
  3. 结论:如图所示,① 推荐系统推类似产品越多,用户满意度下降越快。②推荐系统推类似产品越频繁,用户满意度下降越快
    在这里插入图片描述

3. 方法

3.1 基本思想

基于因果推理中的反事实模型历史交互数据学习一个能够估计用户偏好的因果用户模型Causal user model),然后利用Causal user model产生反馈信号(reward)对基于强化学习的推荐策略(RL policy)进行规划训练,最后将学好的RL policy进行上线。

如下图所示,模型包含四个关键部分:① 因果用户模型(Causal User Model)② 基于Transformer模型的状态跟踪器(State Tracker)③ 基于强化学习的交互式推荐策略(RL Agent) ④ 真实的评估环境(Real Environment
在这里插入图片描述

3.2 User Model

User Model由两部分组成:

  1. 偏好估计模块(Preference Estimation):对真实用户的兴趣进行准确估计,本篇文章中就是DeepFM模型。
  2. 一个基于因果推理的偏好调整模块(Causal Intervention for Exposure Effect)。在动态的交互式推荐中对于重复推荐结果进行惩罚,即计算exposure effect,然后给出负分奖励信号: y ^ u i t = r ^ u i 1 + e t ( u , i ) \hat{y}_{u i}^{t}=\frac{\hat{r}_{u i}}{1+e_{t}(u, i)} y^uit=1+et(u,i)r^ui

3.2 State Tracker

这部分用到了Transformer结构,挺新颖的,我之前看的论文都是用的GRU或者LSTM。
在进入transformer前,作者还构建了一个门控机制,用于将reward和action拼接起来: g t = σ ( W ⋅ \boldsymbol{g}_{t}=\sigma\left(\mathbf{W} \cdot\right. gt=σ(W Concat ( r t , e a t ) + b ) \left.\left(\mathbf{r}_{t}, \mathbf{e}_{a_{t}}\right)+\mathbf{b}\right) (rt,eat)+b)
在这里插入图片描述

3.3 RL agent

在这里插入图片描述
这部分是算法端的核心(上图黄色部分),主要是和上一步学习到的 User Model进行交互。
在这个交互过程中,User Model可以被视为user simulator,为交互式推荐策略提供reward。因为该奖励信号在真实情况下不存在,所以称作counterfactual reward

这部分用到的强化学习策略为PPO,当然也可以使用别的策略 如DDPG。

3.3 Real Environment

真实的评估环境对于商业推荐公司来说,就是其产品线上的真实用户。对于算法层面来说,这个评估环境是一个黑箱模块,当算法提供推荐后,能够返回最真实的信号。这也为评价推荐策略好坏提供了标准。对应着图中的紫色部分~

这里的黑箱是由快手数据集中的全曝光小矩阵构造的~

3.4 因果模型

在这里插入图片描述
U U U代表用户喜好, I I I代表商品特性, R R R反馈, Y Y Y节点代表用户的真实喜好,而 E t E_t Et则代表当前推荐的过曝光效应(即陷入信息茧房的程度), e t ∗ e_t^* et是随机变量 E t E_t Et的一个具体取值。

直观来看,如果某个或某类商品被重复推荐,则过曝光效应 E t E_t Et将会偏大,用户则会感到厌倦,继而给出相对真实喜好 Y Y Y 负向的反馈信号 R R R。加了阴影的节点代表隐变量,不能通过历史数据直接观测得到。

我们假设用户最终的反馈信号是由两条路径决定:
(1)(U,I) →Y → R:这条路径刻画了用户真实兴趣对最终反馈的影响,在本文中实现为传统的DeepFM推荐模型。也可以由其他推荐模型进行实现。
(2)I → E_t→R:这条路径刻画了过曝光效应对用户最终反馈的影响。

本文对过曝光效应 E t E_t Et的定义如下:
e t = e t ( u , i ) = α u β i ∑ ( u , i l , t l ) ∈ S u k , t l < t [ e x p ( ⁡ − ( t − t l ) τ × d i s t ( i , i l ) ) ] e_t= e_t (u,i)=α_u β_i ∑_{(u,i_l,t_l )∈ S_u^k,t_l<t}[exp(\frac{⁡- (t-t_l)}{τ} × dist(i,i_l )) ] et=et(u,i)=αuβi(u,il,tl)Suk,tl<t[exp(τ(ttl)×dist(i,il))]

得到过曝光效应 e t e_t et后,我们可以进一步定义其对用户反馈的影响如下:
y ^ u i t = r ^ u i 1 + e t ( u , i ) \hat{y}_{u i}^{t}=\frac{\hat{r}_{u i}}{1+e_{t}(u, i)} y^uit=1+et(u,i)r^ui
agentuser model交互时的reward

4. 总结

(1) 基于反事实因果推断的用户模型能够正确刻画推荐结果中的过曝光效应,从而在信息茧房的萌芽阶段进行探测和纠正。
(2) 基于强化学习的交互式推荐策略能够很好地掌握因果用户模型给出的反事实奖励信号,从而在与真实用户的实时交互中进行自适应的方案调整。且实验结果证明,无论环境如何变化,本发明提出的方法都能很好的工作,效果远超出对比算法。

这篇关于快手+何向南团队最新论文Counterfactual Interactive Recommender System ,反事实推理融入离线强化学习,解决filter bubble/信息茧房问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/685747

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

如何解决线上平台抽佣高 线下门店客流少的痛点!

目前,许多传统零售店铺正遭遇客源下降的难题。尽管广告推广能带来一定的客流,但其费用昂贵。鉴于此,众多零售商纷纷选择加入像美团、饿了么和抖音这样的大型在线平台,但这些平台的高佣金率导致了利润的大幅缩水。在这样的市场环境下,商家之间的合作网络逐渐成为一种有效的解决方案,通过资源和客户基础的共享,实现共同的利益增长。 以最近在上海兴起的一个跨行业合作平台为例,该平台融合了环保消费积分系统,在短

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费