【RL】(task4)DDPG算法、TD3算法

2024-01-26 17:28

文章标签 算法 rl td3 ddpg task4

本文主要是介绍【RL】(task4)DDPG算法、TD3算法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

note

DDPG（Deep Deterministic Policy Gradient）算法

DDPG算法是一种结合了深度学习和确定性策略梯度的算法。它主要解决的是在连续动作空间中，智能体（agent）如何通过不断尝试来学习到一个最优策略，使得在与环境交互的过程中获得最大的回报。

TD3（Twin Delayed Deep Deterministic Policy Gradient）算法

TD3算法可以看作是DDPG的一个改进版本，它针对DDPG在某些情况下可能会高估Q值的问题做了改进。

双网络（Twin）：TD3使用两个评论家网络而不是一个，这样可以减少Q值的估计误差。
延迟策略更新（Delayed）：TD3在更新策略时引入了延迟，即不是每一步都更新策略，而是每隔几步更新一次，这样可以避免策略过早地收敛到局部最优。
策略平滑（Policy Smoothing）：在执行动作时，TD3添加了一个小的随机噪声，使得智能体不仅学习如何在最佳动作上表现良好，而且还能在最佳动作附近的动作上表现良好，这增加了策略的鲁棒性。

DDPG和TD3都是用来解决连续动作空间中的强化学习问题的算法。DDPG通过深度神经网络和策略梯度来学习最优策略，而TD3则在DDPG的基础上做了一些改进，使得学习过程更加稳定和有效。

任务	天数	截止时间
Task01: 马尔可夫过程、DQN算法	3天	1月15周一-17日周三
Task02: 策略梯度算法	3天	1月18日周四-20周六
Task03: A2C、A3C算法、JoyRL开源文档（关注多进程）	3天	1月21日周日-23日周二
Task04: DDPG、TD3算法	3天	1月24日周三-26日周五
Task05: PPO算法，JoyRL代码实践(选择任一算法任一环境，研究算法不同参数给实验结果带来的影响，也可以用JoyRL上没有跑过的环境尝试)	6天	1月27日周六-2月1号周四