Multi-Modal Hallucination Control by Visual Information Grounding

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2024
2024年03月20日
  • 简介
    生成式视觉语言模型(VLMs)往往会生成听起来合理的文本答案,但这些答案并不总是与输入的图像相对应。我们研究了这种现象,通常称为“幻觉”,并表明它源于对语言先验的过度依赖。特别是,我们表明随着生成的令牌数量的增加,对视觉提示的依赖性会减少,并且这种行为与幻觉的出现强烈相关。为了减少幻觉,我们引入了多模式相互信息解码(M3ID),这是一种新的提示放大采样方法。M3ID放大了参考图像对语言先验的影响,从而有利于生成与视觉提示具有更高相互信息的令牌。M3ID可以应用于任何预训练的自回归VLM,在推断时无需进一步训练,并且计算开销最小。如果训练是一种选择,我们表明可以将M3ID与直接偏好优化(DPO)配对,以提高模型对提示图像的依赖性,而无需任何标签。我们的实证结果表明,我们的算法在减少视觉不相关答案的同时,保持了预训练VLM的流畅性和语言能力。具体来说,对于LLaVA 13B模型,M3ID和M3ID+DPO分别将字幕任务中幻觉对象的百分比减少了25%和28%,并且提高了VQA基准测试的准确性,如POPE提高了21%和24%。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决生成式视觉语言模型(VLMs)在生成文本答案时出现的虚假信息问题,即“幻觉”,并提出一种新的采样方法以减少幻觉。
  • 关键思路
    论文提出了一种名为Multi-Modal Mutual-Information Decoding (M3ID)的采样方法,在生成文本时增强参考图像的影响力,从而减少幻觉。同时,也可与Direct Preference Optimization (DPO)结合使用,以进一步提高模型对图像信息的依赖性。
  • 其它亮点
    论文通过实验验证了M3ID的有效性,对于LLaVA 13B模型,使用M3ID和M3ID+DPO分别将幻觉物体的百分比降低了25%和28%,在VQA基准测试中的准确性也分别提高了21%和24%。
  • 相关研究
    近期的相关研究包括:1)基于注意力机制的VLMs的改进;2)使用强化学习来提高VLMs的性能;3)提高VLMs对图像信息的理解和利用等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问