Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning

本文主要是介绍Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

总结

多场景(tb主搜、店铺搜)rank,每个场景1个actor。整体架构:2个communication component(lstm),1个critic,2个actor。用公共的critic来控制协调,用lstm来保证actor可以获取之前的trajectory来学习

细节

L2R:point-wise, pair-wise, list-wise
DDPG,actor-critic:actor: a t = μ ( s t ) a_t = \mu(s_t) at=μ(st),critic: Q ( s t , a t ) Q(s_t, a_t) Q(st,at)
DRQN,partially-observable,rnn对前面的obs编码,预测 Q ( h t − 1 , o t , a t ) Q(h_{t - 1}, o_t, a_t) Q(ht1,ot,at)而不是 Q ( s t , a t ) Q(s_t, a_t) Q(st,at)
MARL:多个agent,同时take action。fully cooperation agents & fully competitive agents

整体架构
在这里插入图片描述
公用的critic,单独的actor,单独的communication component(lstm),lstm的 x t x_t xt是当前场景下的 [ o t , a t ] [o_t, a_t] [ot,at]

actor架构
在这里插入图片描述

实验

评估指标:GMV gap, G M V ( x ) − G M V ( y ) G M V ( y ) \frac{GMV(x) - GMV(y)}{GMV(y)} GMV(y)GMV(x)GMV(y)

GMV/Gross Merchandise Volume,商品交易总额

这篇关于Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/553469

相关文章

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位

flume系列之:记录一次flume agent进程被异常oom kill -9的原因定位 一、背景二、定位问题三、解决方法 一、背景 flume系列之:定位flume没有关闭某个时间点生成的tmp文件的原因,并制定解决方案在博主上面这篇文章的基础上,在机器内存、cpu资源、flume agent资源都足够的情况下,flume agent又出现了tmp文件无法关闭的情况 二、

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界 这个世界,小明只能控制自己的加速度,并且只能对加速度进行如下三种操作:增加1、减少1、或者不变。所以行动空间为: { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1​=−1,u2​=0,u3​=1}

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型 、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子,从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入,GO! 一维的速度世界 这个世界,小明只能控制自己的速度,并且只能对速度进行如下三种操作:增加1、减

AGENT时区问题

1、因agent的时区与machine时区不匹配导致启动agent失败,解决在安装检查时区的检查的警告问题 解决问题:在利用12c MOS推送方式安装12c agent时,会出现时区检查的warning,上面提示利用emctl resetTZ agent在安装后处理。在做的过程中,可能遇到某些状况的解决方法 环境:HP_UNIX B.11.31 --查看agent状态 $ ./emctl stat

【硬刚ES】ES基础(二十一) 单字符串多字段查询:Multi Match

本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ES部分补充。

在亚马逊云科技上利用Agent和生成式AI写小说(下篇)

今天小李哥将继续介绍亚马逊推出的国际前沿人工智能AI大模型平台Amazon Bedrock上的Agent的功能。我们将利用Agent结合应用代码工作流服务Step Functions创建链式提示词(Prompt Chaining),通过提示词执行一系列调用Amazon Bedrock上AI大模型的操作写一篇小说。其中架构前端使用了Streamlit框架开发,为用于提供了写小说的交互界面。整个项目的