Multi-Modal Hallucination Control by Visual Information Grounding

向作者提问

NEW

简介

生成式视觉语言模型（VLMs）往往会生成听起来合理的文本答案，但这些答案并不总是与输入的图像相对应。我们研究了这种现象，通常称为“幻觉”，并表明它源于对语言先验的过度依赖。特别是，我们表明随着生成的令牌数量的增加，对视觉提示的依赖性会减少，并且这种行为与幻觉的出现强烈相关。为了减少幻觉，我们引入了多模式相互信息解码（M3ID），这是一种新的提示放大采样方法。M3ID放大了参考图像对语言先验的影响，从而有利于生成与视觉提示具有更高相互信息的令牌。M3ID可以应用于任何预训练的自回归VLM，在推断时无需进一步训练，并且计算开销最小。如果训练是一种选择，我们表明可以将M3ID与直接偏好优化（DPO）配对，以提高模型对提示图像的依赖性，而无需任何标签。我们的实证结果表明，我们的算法在减少视觉不相关答案的同时，保持了预训练VLM的流畅性和语言能力。具体来说，对于LLaVA 13B模型，M3ID和M3ID+DPO分别将字幕任务中幻觉对象的百分比减少了25%和28％，并且提高了VQA基准测试的准确性，如POPE提高了21％和24％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决生成式视觉语言模型（VLMs）在生成文本答案时出现的虚假信息问题，即“幻觉”，并提出一种新的采样方法以减少幻觉。
关键思路

论文提出了一种名为Multi-Modal Mutual-Information Decoding (M3ID)的采样方法，在生成文本时增强参考图像的影响力，从而减少幻觉。同时，也可与Direct Preference Optimization (DPO)结合使用，以进一步提高模型对图像信息的依赖性。
其它亮点

论文通过实验验证了M3ID的有效性，对于LLaVA 13B模型，使用M3ID和M3ID+DPO分别将幻觉物体的百分比降低了25％和28％，在VQA基准测试中的准确性也分别提高了21％和24％。
相关研究

近期的相关研究包括：1）基于注意力机制的VLMs的改进；2）使用强化学习来提高VLMs的性能；3）提高VLMs对图像信息的理解和利用等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问