O2O:Offline–Online Actor–Critic

2024-06-07 04:04
文章标签 offline online o2o actor critic

本文主要是介绍O2O:Offline–Online Actor–Critic,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

IEEE TAI 2024
paper
加权TD3_BC

Method

离线阶段,算法基于TD3_BC,同时加上基于Q函数的权重函数,一定程度上避免了过估计
J o f f l i n e ( θ ) = E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) ] − ∥ π θ ( s ) − a ∥ 2 \begin{aligned}J_{\mathrm{offline}}(\boldsymbol{\theta})&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))\right]-\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^{2}\end{aligned} Joffline(θ)=E(s,a)B[ζQϕ(s,πθ(s))]πθ(s)a2
其中权重 ζ \zeta ζ与Q函数关系如下,
ζ = α 1 m ∑ ( s i , a i ) ∈ B ‾ ∣ Q ( s i , a i ) ∣ \zeta=\frac{\alpha}{\frac{1}{m}\sum_{(s_{i},\boldsymbol{a}_{i})\in\overline{\mathcal{B}}}|Q(\boldsymbol{s}_{i},\boldsymbol{a}_{i})|} ζ=m1(si,ai)BQ(si,ai)α

在线阶段为了防止策略出现Performance drop, 对策略优化j保留BC项。如下::
J o n l i n e ( θ ) = E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) ] − λ ∥ π θ ( s ) − a ∥ 2 \begin{aligned}J_{\mathrm{online}}(\boldsymbol{\theta})&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}\left(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s})\right)\right]-\lambda\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^{2}\end{aligned} Jonline(θ)=E(s,a)B[ζQϕ(s,πθ(s))]λπθ(s)a2

价值函数通过最小化均方bellman误差:
L ( ϕ ) = E ( s , a ) ∼ B [ ( y ˉ − Q ϕ ( s , a ) ) 2 ] ( 11 ) y ˉ = r + min ⁡ i = 1 , 2 Q ϕ ˉ i ( s , ′ a ′ ∼ π θ ˉ ) . L(\phi)=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\left(\bar{y}-Q_{\boldsymbol{\phi}}(\boldsymbol{s},\boldsymbol{a})\right)^{2}\right]\quad(11)\\\bar{y}=r+\min_{i=1,2}Q_{\bar{\boldsymbol{\phi}}_{i}}(s,^{\prime}\boldsymbol{a}^{\prime}\sim\pi_{\bar{\boldsymbol{\theta}}}). L(ϕ)=E(s,a)B[(yˉQϕ(s,a))2](11)yˉ=r+i=1,2minQϕˉi(s,aπθˉ).

伪代码

在这里插入图片描述

结果

在这里插入图片描述

对比的方法有点老,不知道和最近的一些Off2On、UPQ、E2O如何

这篇关于O2O:Offline–Online Actor–Critic的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1038120

相关文章

O2O 行业 IT 系统架构实践分享

大家好,我是 QingCloud 架构和解决方案工程师张卫华,今天由我来和大家分享 QingCloud 在O2O行业的解决方案,希望通过今天的交流,能对从事O2O的企业如何利用云平台解决业务需求,提供些许帮助。 前沿 O2O作为一种新生的商业模式,经过这些年的实践和讨论,已经从眼花缭乱的概念逐渐变得清晰起来,并且在外卖、打车、酒店、影院等行业都已经有非常好的应用案例了。 随着4G网络的日益成

O2O 行业 IT 系统架构实践分享——预告

主题:O2O 行业 IT 系统架构实践分享 时间:4 月 26 日 20:00 —— 21:30 地点:QingCloud 技术分享群 报名方式:扫描文末小编二维码添加好友,发送听课,小编拉你进群。 讲师: 张卫华,青云QingCloud 架构和解决方案工程师。 本期内容介绍: O2O 作为一种新生的商业模式,经过这些年的实践和讨论,已经从眼花缭乱的概念逐渐变得清晰起来,在外卖、打车

[LeetCode] 901. Online Stock Span

题:https://leetcode.com/problems/online-stock-span/ 题目大意 不断给出元素,求当前元素开始往前的最大子串,且串中每个元素的值都小于等于 该元素。 思路 class stockPair{int price;int day;public stockPair(int price,int day){this.price = price;this.d

Hugging Face Offline Mode 离线模式

Hugging Face Offline Mode 离线模式 1. 缓存管理2. 遥测日志 在使用 Hugging Face 的库时,缓存和遥测日志是两个重要的功能。本文将介绍如何管理缓存、启用离线模式以及如何关闭遥测日志。 1. 缓存管理 在使用 Hugging Face 模型时,权重和文件通常会从 Hub 下载并存储在默认的缓存目录中,这个目录通常位于用户的主目录。如果

scala并发编程原生线程Actor、Case Class下的消息传递和偏函数实战

参考代码: import scala.actors._case class Person(name:String,age:Int)class HelloActor extends Actor{def act(){while(true){receive{case Person(name,age)=>{ //偏函数println("Name: "+ name + ":" +"Age:"

大零售时代:开源 AI 智能名片、2+1 链动与 O2O 商城小程序引领融合新趋势

摘要:本文深入探讨了当今零售业态的发展趋势,指出在数据匹配的时代,人依然在零售中发挥着重要作用。通过对大零售理念的阐述,分析了跨行业跨业态融合的必然性,强调了业态融合的指导思想以及实现方式。同时,引入开源 AI 智能名片、2+1 链动与 O2O 商城小程序等创新元素,展示了它们在大零售时代的重要价值和应用前景。 一、引言 在当今数字化时代,零售行业正经历着前所未有的变革。随着数据技术的不断

getLocation:fail, the permission value is offline verifying

getLocation:fail, the permission value is offline verifying 后端会根据appid和secret生成 签名,前端wx配置时一定用appid来验证签名的正确 本次错误为配置初始化失败:前端与后端的appId不一致,我的失误也

UE的Gameplay框架(二) —— Actor和Component

这篇博客聊一下UE的Gameplay框架很重要的一部分 Actor 和 Component 文章目录 ActorComponentSceneComponent注册组件 Actor生命周期参考资料 Actor 如UE文档所述,所有可以放入关卡的对象都是 Actor,比如摄像机、静态网格体、玩家起始位置。Actor 支持三维变换,例如平移、旋转和缩放。在 C++

开源 AI 智能名片与 O2O 商城小程序源码:探索企业内容发布节奏的新路径

摘要:本论文深入探讨在当今数字化时代,企业如何找到适合业务特性的内容发布节奏。强调了内容发布节奏规划对于培养读者订阅习惯、建立有效关系以及实现长期持续经营的重要性。结合开源 AI 智能名片与 O2O 商城小程序源码,分析不同业务特性下的发布节奏规划策略,为企业提供切实可行的指导。 一、引言 在竞争激烈的商业环境中,企业的内容发布已不再是随意而为的行为。找到适合业务特性的发布节奏,成为企业在

强化学习第十章:Actor-Critic 方法

强化学习第十章:Actor-Critic 方法 什么叫Actor-Critic最简单的AC,QAC(Q Actor-Critic)优势函数的AC,A2C(Advantage Actor-Critic)异策略AC,Off-Policy AC确定性策略梯度,DPG总结参考资料 什么叫Actor-Critic 一句话,策略由动作来执行,执行者叫Actor,评价执行好坏的叫Critic(