Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

2024年02月23日
  • 简介
    大型视觉语言模型(LVLM)容易出现物体幻觉问题,即生成的文本包含不存在的物体,这极大地限制了它们的可靠性和实用性。目前的方法通常依赖于模型的标记可能性或其他内部信息,通过指导额外的数据集调整,或者结合复杂的外部工具。我们首先对句子级别的LVLM幻觉进行了实证分析,发现与图像的CLIP相似度作为幻觉的更强更稳健的指标,相比标记可能性更加有效。在此基础上,我们引入了我们的CLIP引导解码(CGD)方法,这是一种简单但有效的无需训练的方法,用于在解码时减少物体幻觉。CGD使用CLIP来指导模型的解码过程,通过图像增强生成文本的视觉基础。实验表明,CGD有效地减轻了多个LVLM系列的物体幻觉,同时保留了文本生成的实用性。
  • 图表
  • 解决问题
    本论文旨在解决大型视觉语言模型(LVLMs)中出现对象幻觉的问题,提出了一种新的解决方案。
  • 关键思路
    该论文提出了一种名为CLIP-Guided Decoding (CGD)的方法,通过使用CLIP来指导模型的解码过程,从而减少对象幻觉的发生。
  • 其它亮点
    论文通过实证分析发现,与模型的标记似然度相比,CLIP与图像的相似度更能有效地指示幻觉。CGD是一种无需训练的简单而有效的方法,可以在保留文本生成效用的同时减少对象幻觉。实验结果表明,CGD能够有效地减少多个LVLM家族中的对象幻觉。
  • 相关研究
    在相关研究方面,最近的研究集中于使用不同的方法来解决LVLMs中的对象幻觉问题,例如使用额外的数据集进行调整,或者结合复杂的外部工具。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论