本文主要是介绍深度强化学习(DRL)算法系列文章合集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1. 深度强化学习(DRL)算法 1 —— REINFORCE
2. 深度强化学习(DRL)算法 2 —— PPO 之 Clipped Surrogate Objective 篇
3. 深度强化学习(DRL)算法 2 —— PPO 之 GAE 篇
4. 深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN)
5. 深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG)
6. 深度强化学习(DRL)算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3)
7. 深度强化学习(DRL)算法 附录1 —— 贝尔曼公式
8. 深度强化学习(DRL)算法 附录 2 —— 策略迭代和价值迭代
9. 深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD)
10.深度强化学习(DRL)算法 附录 4 —— 一些常用概念(KL 散度、最大熵 MDP etc.)
11. 深度强化学习(DRL)算法 附录 5 —— CV 基础回顾篇
12. 深度强化学习(DRL)算法 附录 6 —— NLP 回顾之预训练模型篇
这个系列介绍了常用的单智能体强化学习方法,也有些没有写到,比如 SAC,希望以后有时间可以回来补完。还有多智能体算法这个系列没有涉及,希望以后可以有时间谢谢多智能体算法。最后用一句话暂时结束这个系列:
奋斗,追求,不达目的,誓不罢休! ——《船长与大尉》
下个系列会开始介绍 RLXF(包括 RLHF、RLAIF)欢迎关注。
这篇关于深度强化学习(DRL)算法系列文章合集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!