Value-Based Reinforcement Learning（2）

2024-05-27 01:12

文章标签 value based learning reinforcement

本文主要是介绍Value-Based Reinforcement Learning（2），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Temporal Difference （TD） Learning

上节已经提到了如果我们有DQN，那么agent就知道每一步动作如何做了，那么DQN如何训练那？这里面使用TD算法。

简略分析：

$U_{t} = R_t +\gamma R_{t+1} +\gamma ^2R_{t+2} + \gamma^3R_{t+3} + ... \newline U_t = R_t + \gamma U_{t+1}$

$Q(s_t, a_t;w)$ 是 $E(U_t)$ 的估计

$Q(s_{t+1}, a_{t+1}; w)$ 是 $E(U_{t+1})$ 的估计

所以：

Deep Reinforcement Learning : $Q(s_t, a_t; w) \approx r_t + \gamma * Q(s_{t+1}, a_{t+1}; w)$

Prediction ： $Q(s_t, a_t;w_t)$

TD Target : $y_t = r_t + \gamma Q(s_{t+1}, a_{t+1};w_t)$

Loss ： $L_t = 1/2 [Q(s_t, a_t;w_t) - y_t]^2$

Gradient Desent : $w_{t+1} = w_{t}- \alpha \frac{\partial L_t}{\partial w}|w=w_t$ ，做梯度下降是为了让loss减少

这篇关于Value-Based Reinforcement Learning（2）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1006110。 23002807@qq.com

相关文章

Java枚举类实现Key-Value映射的多种实现方式

Java枚举类实现Key-Value映射的多种实现方式

《Java枚举类实现Key-Value映射的多种实现方式》在Java开发中,枚举(Enum)是一种特殊的类,本文将详细介绍Java枚举类实现key-value映射的多种方式,有需要的小伙伴可以根据需要... 目录前言一、基础实现方式1.1 为枚举添加属性和构造方法二、http://www.cppcns.co

阅读更多...

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》：本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

阅读更多...

Retrieval-based-Voice-Conversion-WebUI模型构建指南

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI（简称 RVC）模型是一个基于 VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）的简单易用的语音转换框架。具有以下特点简单易用：RVC 模型通过简单易用的网页界面，使得用户无需深入了

阅读更多...

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

阅读更多...

简单的Q-learning|小明的一维世界(2)

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子，从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入，GO！一维的速度世界这个世界，小明只能控制自己的速度，并且只能对速度进行如下三种操作：增加1、减

阅读更多...

为 Key-Value 数据库实现MVCC 事务

为 Key-Value 数据库实现MVCC 事务

ACID是软件领域使用最广泛的技术之一，它是关系数据库的基石，是企业级中间件不可或缺的部分，但通常通过黑盒的方式提供。但是在许多情况下，这种古老的事务方式已经不能够适应现代大规模系统和NoSQL数据库的需要了，现代系统要求更高的性能要求，更大的数据量，更高的可用性。在这种情况下，传统的事务模型被定制的事务或者半事务模型所取代，而在这些模型中事务性并不像以往那样被看重。　　在本文中我们会讨论一

阅读更多...

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

MACS bdgdiff: Differential peak detection based on paired four bedGraph files.

参考原文地址：[http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html](http://manpages.ubuntu.com/manpages/xenial/man1/macs2_bdgdiff.1.html) 文章目录一、MACS bdgdiff 简介DESCRIPTION 二、用法

阅读更多...

Neighborhood Homophily-based Graph Convolutional Network

Neighborhood Homophily-based Graph Convolutional Network

#paper/ccfB 推荐指数： #paper/⭐ #pp/图结构学习流程重定义同配性指标： N H i k = ∣ N ( i , k , c m a x ) ∣ ∣ N ( i , k ) ∣ with c m a x = arg ⁡ max ⁡ c ∈ [ 1 , C ] ∣ N ( i , k , c ) ∣ NH_i^k=\frac{|\mathcal{N}(i,k,c_{

阅读更多...

兔子-(PHP 5.3 and above) Please set 'request_order' ini value to include C,G and P (recommended: 'CGP'

兔子-(PHP 5.3 and above) Please set 'request_order' ini value to include C,G and P (recommended: 'CGP'

由于在PHP最新的版本中增加了一个配置项目“request_order”，默认值为“GP”，这个存在一定的安全风险。这里我们建议用户将配置更改为“CGP” 可以在php的安装目录下找到php.ini配置目录，找到下面选项： request_order = "GP" 更改为 request_order = "CGP" 重启服务器后即可。此

阅读更多...

MySql 1264 - Out of range value for column 异常

MySql 1264 - Out of range value for column 异常

前段时间操作数据库，本是一个很简单的修改语句，却报了 1264 - Out of range value for column字段类型官网当时一看懵逼了，网上很多都说是配置的问题，需要修改my.ini文件，这个方式我没有试过，我想肯定还有其它方法，经过慢慢排查发现表里的字段为 decimal(10,3) ，这说明小数点前只有7位，保留了3位小数点，而值在小数点前却有8位，这就导致了错误

阅读更多...