Value-Based Reinforcement Learning（1）

2024-05-27 03:36

文章标签 value based learning reinforcement

本文主要是介绍Value-Based Reinforcement Learning（1），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Action-Value Functions

Discounted Return（未来的reward，由于未来存在不确定性，所以未来的reward 要乘以 $\gamma$ 进行打折）

$U_{t} = R_t +\gamma R_{t+1} +\gamma ^2R_{t+2} + \gamma^3R_{t+3} + ...$

这里的 $U_t$ 依赖actions $A_{t},A_{t+1},A_{t+2},...$ ，和states $S_{t},S_{t+1},S_{t+2},...$

这里

Policy Function : $\pi (a|s) = P[A=a|S=s]$ ，表达了action的随机性

State Transition : $p(s^{'}|s,a) = P[S^{'}=s^{'}|S = s,A=a]$ ，表达了转移状态的随机性

由于存在action，和state随机性，现在想消除随机性，可以求 $U_{t}$ 的数学期望：

Action-Value Function： $Q_\pi (s_t, a_t) = E[U_t|S_t=s_t, A_t=a_t]$ ，在当前策略 $\pi$ 下，状态 $s_t$ 和 $a_t$ 的回报

Optimal Action-Value Function ： $Q^{*}(s_t, a_t) = max \pi Q_\pi (s_t, a_t)$

$Q^{*}$ 可以给任意的动作打分，agent可以根据 $Q^{*}$ 的打分，做最有利的动作

Deep Q-Network （DQN）

如果我们知道了 $Q^{*}$ ，那么每一步最好的动作 $a^{*} = argmax aQ^{*}(s,a)$

DQN的目的就是近似 $Q^{*}$ ,即神经网络 $Q(s,a;w)$ 近似 $Q^{*}(s,a)$

流程如下： $s_t$ -> $a_t$ (DQN给出) -> $s_{t+1}$ (State Transition) -> $a_{t+1}$ (DQN给出)

-> $r_t$ （监督回报，用来训练DQN）

以此类推

这篇关于Value-Based Reinforcement Learning（1）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1006410。 23002807@qq.com

相关文章

解读@ConfigurationProperties和@value的区别

解读@ConfigurationProperties和@value的区别

《解读@ConfigurationProperties和@value的区别》：本文主要介绍@ConfigurationProperties和@value的区别及说明,具有很好的参考价值,希望对大家... 目录1. 功能对比2. 使用场景对比@ConfigurationProperties@Value3. 核

阅读更多...

Java枚举类实现Key-Value映射的多种实现方式

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

阅读更多...

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》：本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

阅读更多...

Retrieval-based-Voice-Conversion-WebUI模型构建指南

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI（简称 RVC）模型是一个基于 VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）的简单易用的语音转换框架。具有以下特点简单易用：RVC 模型通过简单易用的网页界面，使得用户无需深入了

阅读更多...

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

阅读更多...

简单的Q-learning|小明的一维世界(2)

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子，从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入，GO！一维的速度世界这个世界，小明只能控制自己的速度，并且只能对速度进行如下三种操作：增加1、减

阅读更多...

为 Key-Value 数据库实现MVCC 事务

为 Key-Value 数据库实现MVCC 事务

ACID是软件领域使用最广泛的技术之一，它是关系数据库的基石，是企业级中间件不可或缺的部分，但通常通过黑盒的方式提供。但是在许多情况下，这种古老的事务方式已经不能够适应现代大规模系统和NoSQL数据库的需要了，现代系统要求更高的性能要求，更大的数据量，更高的可用性。在这种情况下，传统的事务模型被定制的事务或者半事务模型所取代，而在这些模型中事务性并不像以往那样被看重。　　在本文中我们会讨论一

阅读更多...

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址：[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录一、MACS bdgdiff 简介DESCRIPTION 二、用法

阅读更多...

Neighborhood Homophily-based Graph Convolutional Network

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数： #paper/⭐ #pp/图结构学习流程重定义同配性指标： N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{

阅读更多...

兔子-(PHP 5.3 and above) Please set 'request_order' ini value to include C,G and P (recommended: 'CGP'

兔子-(PHP 5.3 and above) Please set 'request_order' ini value to include C,G and P (recommended: 'CGP'

由于在PHP最新的版本中增加了一个配置项目“request_order”，默认值为“GP”，这个存在一定的安全风险。这里我们建议用户将配置更改为“CGP” 可以在php的安装目录下找到php.ini配置目录，找到下面选项： request_order = "GP" 更改为 request_order = "CGP" 重启服务器后即可。此

阅读更多...