本文主要是介绍【RL】(task4)DDPG算法、TD3算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
note
文章目录
- note
- 一、DDPG算法
- 二、TD3算法
- 时间安排
- Reference
一、DDPG算法
DDPG(Deep Deterministic Policy Gradient)算法
DDPG算法是一种结合了深度学习和确定性策略梯度的算法。它主要解决的是在连续动作空间中,智能体(agent)如何通过不断尝试来学习到一个最优策略,使得在与环境交互的过程中获得最大的回报。
- 深度学习:使用深度神经网络来近似表示价值函数和策略。
- 确定性策略:不像一些随机策略,确定性策略为每个状态输出一个确定的动作,这样更容易进行优化。
- 策略梯度:通过计算策略的梯度来更新策略,使得策略朝着更好的方向改进。
DDPG算法有几个关键组成部分:
- 演员网络(Actor Network):负责输出动作。
- 评论家网络(Critic Network):负责评估演员网络输出的动作的好坏。
- 经验回放(Experience Replay):存储智能体的经验,用于之后的训练,这样可以打破数据之间的相关性,提高学习的稳定性。
- 目标网络(Target Network):为了增加学习的稳定性,DDPG使用了目标网络,这些网络定期从在线网络复制权重。
二、TD3算法
TD3(Twin Delayed Deep Deterministic Policy Gradient)算法
TD3算法可以看作是DDPG的一个改进版本,它针对DDPG在某些情况下可能会高估Q值的问题做了改进。
- 双网络(Twin):TD3使用两个评论家网络而不是一个,这样可以减少Q值的估计误差。
- 延迟策略更新(Delayed):TD3在更新策略时引入了延迟,即不是每一步都更新策略,而是每隔几步更新一次,这样可以避免策略过早地收敛到局部最优。
- 策略平滑(Policy Smoothing):在执行动作时,TD3添加了一个小的随机噪声,使得智能体不仅学习如何在最佳动作上表现良好,而且还能在最佳动作附近的动作上表现良好,这增加了策略的鲁棒性。
DDPG和TD3都是用来解决连续动作空间中的强化学习问题的算法。DDPG通过深度神经网络和策略梯度来学习最优策略,而TD3则在DDPG的基础上做了一些改进,使得学习过程更加稳定和有效。
时间安排
任务 | 天数 | 截止时间 | 注意事项 |
---|---|---|---|
Task01: 马尔可夫过程、DQN算法 | 3天 | 1月15周一-17日周三 | |
Task02: 策略梯度算法 | 3天 | 1月18日周四-20周六 | |
Task03: A2C、A3C算法、JoyRL开源文档(关注多进程) | 3天 | 1月21日周日-23日周二 | |
Task04: DDPG、TD3算法 | 3天 | 1月24日周三-26日周五 | |
Task05: PPO算法,JoyRL代码实践(选择任一算法任一环境,研究算法不同参数给实验结果带来的影响,也可以用JoyRL上没有跑过的环境尝试) | 6天 | 1月27日周六-2月1号周四 |
Reference
[1] 开源内容https://linklearner.com/learn/detail/91
[2] https://github.com/datawhalechina/joyrl-book
这篇关于【RL】(task4)DDPG算法、TD3算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!