本文主要是介绍一文打通RLHF的来龙去脉,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 1. RLHF的发展历程
- 2. 强化学习
- 2.1 强化学习基本概念
- 2.2 强化学习分类
- 2.3 Policy Gradient
- 2.3.1 add a baseline
- 2.3.2 assign suitable credit
- 2.4 TRPO和PPO算法
- 2.4.1 on-policy
- 2.4.2 Important Sampling
- 2.4.3 Off Policy
- 2.4.4 TRPO 和 PPO 算法
- 2.4.5 P
这篇关于一文打通RLHF的来龙去脉的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!