ddpo专题

（2024，一致性模型，强化学习，MDP，DDPO）一致性模型的强化学习：更快的奖励引导文本到图像生成

RL for Consistency Models: Faster Reward Guided Text-to-Image Generation 公和众和号：EDPJ（进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群）部分图像上传缓慢，可看原论文或在 EDPJ 查看目录 0. 摘要 3. 基础 3.1 强化学习 3.2 扩散模型与一致性模型 3.3