mdpo专题

MDPO：Conditional Preference Optimization for Multimodal Large Language Models

MDPO: Conditional Preference Optimization for Multimodal Large Language Models 相关链接：arxiv 关键字：多模态、大型语言模型、偏好优化、条件偏好优化、幻觉减少摘要直接偏好优化（DPO）已被证明是大型语言模型（LLM）对齐的有效方法。近期的研究尝试将DPO应用于多模态场景，但发现难以实现一致的改进。通