mDPO: Conditional Preference Optimization for Multimodal Large Language Models

简介

直接偏好优化（DPO）已被证明是大型语言模型（LLM）对齐的有效方法。最近的研究尝试将DPO应用于多模态场景，但发现很难实现一致的改进。通过比较实验，我们确定了多模态偏好优化中的无条件偏好问题，即模型忽略了图像条件。为了解决这个问题，我们提出了mDPO，一种多模态DPO目标，通过优化图像偏好，防止仅优化语言偏好的过度优先。此外，我们引入了一个奖励锚点，强制奖励为所选响应为正，从而避免了相对偏好优化的内在问题，即减少其可能性。在两个不同大小的多模态LLM和三个广泛使用的基准测试中的实验表明，mDPO有效地解决了多模态偏好优化中的无条件偏好问题，并显著提高了模型性能，特别是减少了幻觉。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决多模态偏好优化中的条件偏好问题，并提出了mDPO多模态优化目标，以解决这个问题。
关键思路

mDPO通过优化图像偏好来防止仅优化语言偏好的情况，并引入奖励锚定来确保所选响应的奖励为正，从而避免相对偏好优化的内在问题。
其它亮点

论文在两个不同大小的多模态LLM和三个广泛使用的基准测试上进行了实验，证明了mDPO有效解决了多模态偏好优化中的条件偏好问题，并在减少幻觉方面显著提高了模型性能。
相关研究

最近的相关研究包括：《Unsupervised Multimodal Pre-Training for Visual and Language Grounding》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》等。

mDPO: Conditional Preference Optimization for Multimodal Large Language Models

提问交流

提问交流