使用DDPG算法实现cartpole 100万次不倒

2023-11-02 19:20

本文主要是介绍使用DDPG算法实现cartpole 100万次不倒,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DDPG的全称是Deep Deterministic Policy Gradient,一种Actor Critic机器增强学习方法。
CartPole是http://gym.openai.com/envs/CartPole-v0/ 这个网站提供的一个杆子不倒的测试环境。 CartPole环境返回一个状态包括位置、加速度、杆子垂直夹角和角加速度。玩家控制左右两个方向使杆子不倒。杆子倒了或超出水平位置限制就结束一个回合。一个回合中杆不倒动作步数越多越好。
cartpole_ddpg 程序是训练出一个DDPG神经网络,用来玩CartPole-v0,使杆子不倒,步数越多越好。现在程序已可以训练出100万步不倒的网络。
源代码:https://github.com/ccjy88/cartpole_ddpg
最多测过一个回合中100万步不倒,为了节约时间程序中一个回合坚持100000步杆子不倒,程序主动退出循环。用现在程序参数1000个回合内就可以产生不倒的回合。
10万次没有倒
算法特点:
为了尽可能多的得到Critic评价的高分,就需要尽可能多的尝试各种可能。因些每一个回合尝试的步
数 MAX_EP_STEPS 设置的比较大为7500步,也可以设置为10000步、20000步。

为了尽可能多的尝试各种可能,开始运行时通过加入随机数产生动作,大约前450次是搜集数据并不学习。等采集的样本数大于MAX_EP_STEPS后才开始学习。当一个回合结束时或达到MAX_EP_STEPS步,在这个回合中记录的奖励reward计算奖励贴现值。并将这个奖励用来训来Critic的Q估计网络和Q_现实网络。大约学习330个回合后就可以产生永远不倒的情况了,前450个回合并只是收集数据没有学习。

程序说明:
cartpole_DDPG.py 是主程序。
设置一个回合最大步数MAX_EP_STEPS=7500
记录状态动作的内存也是7500行容量。
创建Brain_DDPG为agent。
在每个回合的步骤中,从agent获得动作,并加入正确分布的随机值。随机值的系数在训练后逐步减少直至为0.
从环境获得奖励和下一个状态,并存储在这个回合的记忆内存中。
每个回合结束后在回合记忆内存中计算奖励的贴现值,并增加到agent的记忆中。
agent的记忆中足够大再开始学习,对于坚持步数很多的回合全部学习,而不是随机取样学习,要全面学习。

Brain_DDPG.py为DDPG算法实现的内核。
DDPG算法公式略。
大思路为根据状态、动作和奖励,训练出一个Critic能对状态和动作正确打分Q。
有了分值Q,就可以再训练一个Actor在状态s时能做出高分动作a。
现在的程序能在学习几百个回合后,训练出一个Brain,实现一个回合10万次百万次杆子不倒。

定义变量当前状态s 下一个状态s_ 当前动作a,下一个动作a_,奖励r
封装类Brain_DDPG做为API接口。Brain_DDPG的四个子类:
Q是Critic,打分的网络,Q(s,a)打出分q
Q是打分估计网络。Q_打分的现实网络。Q和Q_结构完全相同,参数由Q逐步同步到Q_
U是Actor,是执行动作的网络。U(s)返回动作a
U是动作估计网络,U_是动作现实网络。U和U_结构完全相同,参数由U逐步同步到U_

核心算法是先由U_(s_)算出下一个动作a_
再由Q_和参数r,s_,a_算出q的现实值q_target = r + gamma * Q_(s_,a_)
由Q(s,a)算出估计值q
损失函数就是 q_target - q的差的平方再平均。
对着损失函数不断进行梯度下降学习,就可以训练出打分的Q网络了。Q参数再软同步到Q_

有了Q,那么就需要让动作网络训练成返回高分的动作。设U的参数为theta(U)。
为了求最大值需要求梯度grad(Q,theta(u))。按复合函数求导公式写成
grad_u = (grad(U * grad(Q,grad(U) ,theta(u))
对 grad_u 进行梯度下降优化,可以优化网络U的参数theta(U),使U(s)返回的动作a打分Q最高。因为tensorflow中的优化器支不持最大值,所以使用了负的学习率并求最小值。

源代码:
https://github.com/ccjy88/cartpole_ddpg
程序测试环境:
python 3.7.7
tensorflow 1.15.0rc3
无显卡无硬件加速

参考:
https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/tree/master

这篇关于使用DDPG算法实现cartpole 100万次不倒的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/qq_23117711/article/details/108375753
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/332752

相关文章

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

SpringBoot条件注解核心作用与使用场景详解

《SpringBoot条件注解核心作用与使用场景详解》SpringBoot的条件注解为开发者提供了强大的动态配置能力,理解其原理和适用场景是构建灵活、可扩展应用的关键,本文将系统梳理所有常用的条件注... 目录引言一、条件注解的核心机制二、SpringBoot内置条件注解详解1、@ConditionalOn

Python中使用正则表达式精准匹配IP地址的案例

《Python中使用正则表达式精准匹配IP地址的案例》Python的正则表达式(re模块)是完成这个任务的利器,但你知道怎么写才能准确匹配各种合法的IP地址吗,今天我们就来详细探讨这个问题,感兴趣的朋... 目录为什么需要IP正则表达式?IP地址的基本结构基础正则表达式写法精确匹配0-255的数字验证IP地

OpenCV图像形态学的实现

《OpenCV图像形态学的实现》本文主要介绍了OpenCV图像形态学的实现,包括腐蚀、膨胀、开运算、闭运算、梯度运算、顶帽运算和黑帽运算,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起... 目录一、图像形态学简介二、腐蚀(Erosion)1. 原理2. OpenCV 实现三、膨胀China编程(

通过Spring层面进行事务回滚的实现

《通过Spring层面进行事务回滚的实现》本文主要介绍了通过Spring层面进行事务回滚的实现,包括声明式事务和编程式事务,具有一定的参考价值,感兴趣的可以了解一下... 目录声明式事务回滚:1. 基础注解配置2. 指定回滚异常类型3. ​不回滚特殊场景编程式事务回滚:1. ​使用 TransactionT

Android实现打开本地pdf文件的两种方式

《Android实现打开本地pdf文件的两种方式》在现代应用中,PDF格式因其跨平台、稳定性好、展示内容一致等特点,在Android平台上,如何高效地打开本地PDF文件,不仅关系到用户体验,也直接影响... 目录一、项目概述二、相关知识2.1 PDF文件基本概述2.2 android 文件访问与存储权限2.