mDPO: Conditional Preference Optimization for Multimodal Large Language Models

2024年06月17日
  • 简介
    直接偏好优化(DPO)已被证明是大型语言模型(LLM)对齐的有效方法。最近的研究尝试将DPO应用于多模态场景,但发现很难实现一致的改进。通过比较实验,我们确定了多模态偏好优化中的无条件偏好问题,即模型忽略了图像条件。为了解决这个问题,我们提出了mDPO,一种多模态DPO目标,通过优化图像偏好,防止仅优化语言偏好的过度优先。此外,我们引入了一个奖励锚点,强制奖励为所选响应为正,从而避免了相对偏好优化的内在问题,即减少其可能性。在两个不同大小的多模态LLM和三个广泛使用的基准测试中的实验表明,mDPO有效地解决了多模态偏好优化中的无条件偏好问题,并显著提高了模型性能,特别是减少了幻觉。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在解决多模态偏好优化中的条件偏好问题,并提出了mDPO多模态优化目标,以解决这个问题。
  • 关键思路
    mDPO通过优化图像偏好来防止仅优化语言偏好的情况,并引入奖励锚定来确保所选响应的奖励为正,从而避免相对偏好优化的内在问题。
  • 其它亮点
    论文在两个不同大小的多模态LLM和三个广泛使用的基准测试上进行了实验,证明了mDPO有效解决了多模态偏好优化中的条件偏好问题,并在减少幻觉方面显著提高了模型性能。
  • 相关研究
    最近的相关研究包括:《Unsupervised Multimodal Pre-Training for Visual and Language Grounding》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问