Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

简介

大型视觉语言模型（LVLM）容易出现物体幻觉问题，即生成的文本包含不存在的物体，这极大地限制了它们的可靠性和实用性。目前的方法通常依赖于模型的标记可能性或其他内部信息，通过指导额外的数据集调整，或者结合复杂的外部工具。我们首先对句子级别的LVLM幻觉进行了实证分析，发现与图像的CLIP相似度作为幻觉的更强更稳健的指标，相比标记可能性更加有效。在此基础上，我们引入了我们的CLIP引导解码（CGD）方法，这是一种简单但有效的无需训练的方法，用于在解码时减少物体幻觉。CGD使用CLIP来指导模型的解码过程，通过图像增强生成文本的视觉基础。实验表明，CGD有效地减轻了多个LVLM系列的物体幻觉，同时保留了文本生成的实用性。
图表
解决问题

本论文旨在解决大型视觉语言模型（LVLMs）中出现对象幻觉的问题，提出了一种新的解决方案。
关键思路

该论文提出了一种名为CLIP-Guided Decoding (CGD)的方法，通过使用CLIP来指导模型的解码过程，从而减少对象幻觉的发生。
其它亮点

论文通过实证分析发现，与模型的标记似然度相比，CLIP与图像的相似度更能有效地指示幻觉。CGD是一种无需训练的简单而有效的方法，可以在保留文本生成效用的同时减少对象幻觉。实验结果表明，CGD能够有效地减少多个LVLM家族中的对象幻觉。
相关研究

在相关研究方面，最近的研究集中于使用不同的方法来解决LVLMs中的对象幻觉问题，例如使用额外的数据集进行调整，或者结合复杂的外部工具。

Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

评论