Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning

2023-12-30 16:58

文章标签 multi agent learning via reinforcement ranking scenario collaborate

本文主要是介绍Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

总结

多场景（tb主搜、店铺搜）rank，每个场景1个actor。整体架构：2个communication component（lstm），1个critic，2个actor。用公共的critic来控制协调，用lstm来保证actor可以获取之前的trajectory来学习

细节

L2R：point-wise, pair-wise, list-wise
DDPG，actor-critic：actor： $a_t = \mu(s_t)$ ，critic： $Q(s_t, a_t)$
DRQN，partially-observable，rnn对前面的obs编码，预测 $Q(h_{t - 1}, o_t, a_t)$ 而不是 $Q(s_t, a_t)$
MARL：多个agent，同时take action。fully cooperation agents & fully competitive agents

整体架构
在这里插入图片描述
公用的critic，单独的actor，单独的communication component（lstm），lstm的 $x_t$ 是当前场景下的 $o_t, a_t]$

actor架构
在这里插入图片描述

实验

评估指标：GMV gap， $\frac{GMV(x) - GMV(y)}{GMV(y)}$

GMV/Gross Merchandise Volume，商品交易总额

这篇关于Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/553469。 23002807@qq.com

相关文章

mysqld_multi在Linux服务器上运行多个MySQL实例

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

阅读更多...

2014 Multi-University Training Contest 8小记

2014 Multi-University Training Contest 8小记

1002 计算几何最大的速度才可能拥有无限的面积。最大的速度的点求凸包，凸包上的点（注意不是端点）才拥有无限的面积注意：凸包上如果有重点则不满足。另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

阅读更多...

2014 Multi-University Training Contest 7小记

2014 Multi-University Training Contest 7小记

1003 数学，先暴力再解方程。在b进制下是个2 ， 3 位数的大概是10000进制以上。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

阅读更多...

2014 Multi-University Training Contest 6小记

2014 Multi-University Training Contest 6小记

1003 贪心对于111...10....000 这样的序列， a 为1的个数，b为0的个数，易得当 x= a / (a + b) 时 f最小。讲串分成若干段 1..10..0 , 1..10..0 , 要满足x非递减。对于 xi > xi+1 这样的合并即可。 const int maxn = 100008 ;struct Node{int

阅读更多...

flume系列之：记录一次flume agent进程被异常oom kill -9的原因定位

flume系列之：记录一次flume agent进程被异常oom kill -9的原因定位

flume系列之：记录一次flume agent进程被异常oom kill -9的原因定位一、背景二、定位问题三、解决方法一、背景 flume系列之：定位flume没有关闭某个时间点生成的tmp文件的原因，并制定解决方案在博主上面这篇文章的基础上，在机器内存、cpu资源、flume agent资源都足够的情况下，flume agent又出现了tmp文件无法关闭的情况二、

阅读更多...

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

阅读更多...

简单的Q-learning|小明的一维世界(2)

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子，从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入，GO！一维的速度世界这个世界，小明只能控制自己的速度，并且只能对速度进行如下三种操作：增加1、减

阅读更多...

AGENT时区问题

AGENT时区问题

1、因agent的时区与machine时区不匹配导致启动agent失败,解决在安装检查时区的检查的警告问题解决问题：在利用12c MOS推送方式安装12c agent时，会出现时区检查的warning，上面提示利用emctl resetTZ agent在安装后处理。在做的过程中，可能遇到某些状况的解决方法环境：HP_UNIX B.11.31 --查看agent状态 $ ./emctl stat

阅读更多...

Flutter-Warning! This package referenced a Flutter repository via the .packages file that is no long

Flutter-Warning! This package referenced a Flutter repository via the .packages file that is no long

android studio中修改了diart sdk路径，需要执行以下步骤：

阅读更多...

【硬刚ES】ES基础（二十一）单字符串多字段查询：Multi Match

【硬刚ES】ES基础（二十一）单字符串多字段查询：Multi Match

本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ES部分补充。

阅读更多...