使用DDPG算法实现cartpole 100万次不倒

2023-11-02 19:20

本文主要是介绍使用DDPG算法实现cartpole 100万次不倒,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DDPG的全称是Deep Deterministic Policy Gradient,一种Actor Critic机器增强学习方法。
CartPole是http://gym.openai.com/envs/CartPole-v0/ 这个网站提供的一个杆子不倒的测试环境。 CartPole环境返回一个状态包括位置、加速度、杆子垂直夹角和角加速度。玩家控制左右两个方向使杆子不倒。杆子倒了或超出水平位置限制就结束一个回合。一个回合中杆不倒动作步数越多越好。
cartpole_ddpg 程序是训练出一个DDPG神经网络,用来玩CartPole-v0,使杆子不倒,步数越多越好。现在程序已可以训练出100万步不倒的网络。
源代码:https://github.com/ccjy88/cartpole_ddpg
最多测过一个回合中100万步不倒,为了节约时间程序中一个回合坚持100000步杆子不倒,程序主动退出循环。用现在程序参数1000个回合内就可以产生不倒的回合。
10万次没有倒
算法特点:
为了尽可能多的得到Critic评价的高分,就需要尽可能多的尝试各种可能。因些每一个回合尝试的步
数 MAX_EP_STEPS 设置的比较大为7500步,也可以设置为10000步、20000步。

为了尽可能多的尝试各种可能,开始运行时通过加入随机数产生动作,大约前450次是搜集数据并不学习。等采集的样本数大于MAX_EP_STEPS后才开始学习。当一个回合结束时或达到MAX_EP_STEPS步,在这个回合中记录的奖励reward计算奖励贴现值。并将这个奖励用来训来Critic的Q估计网络和Q_现实网络。大约学习330个回合后就可以产生永远不倒的情况了,前450个回合并只是收集数据没有学习。

程序说明:
cartpole_DDPG.py 是主程序。
设置一个回合最大步数MAX_EP_STEPS=7500
记录状态动作的内存也是7500行容量。
创建Brain_DDPG为agent。
在每个回合的步骤中,从agent获得动作,并加入正确分布的随机值。随机值的系数在训练后逐步减少直至为0.
从环境获得奖励和下一个状态,并存储在这个回合的记忆内存中。
每个回合结束后在回合记忆内存中计算奖励的贴现值,并增加到agent的记忆中。
agent的记忆中足够大再开始学习,对于坚持步数很多的回合全部学习,而不是随机取样学习,要全面学习。

Brain_DDPG.py为DDPG算法实现的内核。
DDPG算法公式略。
大思路为根据状态、动作和奖励,训练出一个Critic能对状态和动作正确打分Q。
有了分值Q,就可以再训练一个Actor在状态s时能做出高分动作a。
现在的程序能在学习几百个回合后,训练出一个Brain,实现一个回合10万次百万次杆子不倒。

定义变量当前状态s 下一个状态s_ 当前动作a,下一个动作a_,奖励r
封装类Brain_DDPG做为API接口。Brain_DDPG的四个子类:
Q是Critic,打分的网络,Q(s,a)打出分q
Q是打分估计网络。Q_打分的现实网络。Q和Q_结构完全相同,参数由Q逐步同步到Q_
U是Actor,是执行动作的网络。U(s)返回动作a
U是动作估计网络,U_是动作现实网络。U和U_结构完全相同,参数由U逐步同步到U_

核心算法是先由U_(s_)算出下一个动作a_
再由Q_和参数r,s_,a_算出q的现实值q_target = r + gamma * Q_(s_,a_)
由Q(s,a)算出估计值q
损失函数就是 q_target - q的差的平方再平均。
对着损失函数不断进行梯度下降学习,就可以训练出打分的Q网络了。Q参数再软同步到Q_

有了Q,那么就需要让动作网络训练成返回高分的动作。设U的参数为theta(U)。
为了求最大值需要求梯度grad(Q,theta(u))。按复合函数求导公式写成
grad_u = (grad(U * grad(Q,grad(U) ,theta(u))
对 grad_u 进行梯度下降优化,可以优化网络U的参数theta(U),使U(s)返回的动作a打分Q最高。因为tensorflow中的优化器支不持最大值,所以使用了负的学习率并求最小值。

源代码:
https://github.com/ccjy88/cartpole_ddpg
程序测试环境:
python 3.7.7
tensorflow 1.15.0rc3
无显卡无硬件加速

参考:
https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/tree/master

这篇关于使用DDPG算法实现cartpole 100万次不倒的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/332752

相关文章

基于C++的UDP网络通信系统设计与实现详解

《基于C++的UDP网络通信系统设计与实现详解》在网络编程领域,UDP作为一种无连接的传输层协议,以其高效、低延迟的特性在实时性要求高的应用场景中占据重要地位,下面我们就来看看如何从零开始构建一个完整... 目录前言一、UDP服务器UdpServer.hpp1.1 基本框架设计1.2 初始化函数Init详解

Java中Map的五种遍历方式实现与对比

《Java中Map的五种遍历方式实现与对比》其实Map遍历藏着多种玩法,有的优雅简洁,有的性能拉满,今天咱们盘一盘这些进阶偏基础的遍历方式,告别重复又臃肿的代码,感兴趣的小伙伴可以了解下... 目录一、先搞懂:Map遍历的核心目标二、几种遍历方式的对比1. 传统EntrySet遍历(最通用)2. Lambd

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

C#中checked关键字的使用小结

《C#中checked关键字的使用小结》本文主要介绍了C#中checked关键字的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录✅ 为什么需要checked? 问题:整数溢出是“静默China编程”的(默认)checked的三种用

SpringBoot全局异常拦截与自定义错误页面实现过程解读

《SpringBoot全局异常拦截与自定义错误页面实现过程解读》本文介绍了SpringBoot中全局异常拦截与自定义错误页面的实现方法,包括异常的分类、SpringBoot默认异常处理机制、全局异常拦... 目录一、引言二、Spring Boot异常处理基础2.1 异常的分类2.2 Spring Boot默

C#中预处理器指令的使用小结

《C#中预处理器指令的使用小结》本文主要介绍了C#中预处理器指令的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 第 1 名:#if/#else/#elif/#endif✅用途:条件编译(绝对最常用!) 典型场景: 示例

基于SpringBoot实现分布式锁的三种方法

《基于SpringBoot实现分布式锁的三种方法》这篇文章主要为大家详细介绍了基于SpringBoot实现分布式锁的三种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、基于Redis原生命令实现分布式锁1. 基础版Redis分布式锁2. 可重入锁实现二、使用Redisso

SpringBoo WebFlux+MongoDB实现非阻塞API过程

《SpringBooWebFlux+MongoDB实现非阻塞API过程》本文介绍了如何使用SpringBootWebFlux和MongoDB实现非阻塞API,通过响应式编程提高系统的吞吐量和响应性能... 目录一、引言二、响应式编程基础2.1 响应式编程概念2.2 响应式编程的优势2.3 响应式编程相关技术

C#实现将XML数据自动化地写入Excel文件

《C#实现将XML数据自动化地写入Excel文件》在现代企业级应用中,数据处理与报表生成是核心环节,本文将深入探讨如何利用C#和一款优秀的库,将XML数据自动化地写入Excel文件,有需要的小伙伴可以... 目录理解XML数据结构与Excel的对应关系引入高效工具:使用Spire.XLS for .NETC

Nginx更新SSL证书的实现步骤

《Nginx更新SSL证书的实现步骤》本文主要介绍了Nginx更新SSL证书的实现步骤,包括下载新证书、备份旧证书、配置新证书、验证配置及遇到问题时的解决方法,感兴趣的了解一下... 目录1 下载最新的SSL证书文件2 备份旧的SSL证书文件3 配置新证书4 验证配置5 遇到的http://www.cppc