ddpo专题

(2024,一致性模型,强化学习,MDP,DDPO)一致性模型的强化学习:更快的奖励引导文本到图像生成

RL for Consistency Models: Faster Reward Guided Text-to-Image Generation 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 部分图像上传缓慢,可看原论文或在 EDPJ 查看  目录 0. 摘要 3. 基础 3.1 强化学习 3.2 扩散模型与一致性模型 3.3