- 简介大型视觉语言模型(LVLM)容易出现物体幻觉问题,即生成的文本包含不存在的物体,这极大地限制了它们的可靠性和实用性。目前的方法通常依赖于模型的标记可能性或其他内部信息,通过指导额外的数据集调整,或者结合复杂的外部工具。我们首先对句子级别的LVLM幻觉进行了实证分析,发现与图像的CLIP相似度作为幻觉的更强更稳健的指标,相比标记可能性更加有效。在此基础上,我们引入了我们的CLIP引导解码(CGD)方法,这是一种简单但有效的无需训练的方法,用于在解码时减少物体幻觉。CGD使用CLIP来指导模型的解码过程,通过图像增强生成文本的视觉基础。实验表明,CGD有效地减轻了多个LVLM系列的物体幻觉,同时保留了文本生成的实用性。
- 图表
- 解决问题本论文旨在解决大型视觉语言模型(LVLMs)中出现对象幻觉的问题,提出了一种新的解决方案。
- 关键思路该论文提出了一种名为CLIP-Guided Decoding (CGD)的方法,通过使用CLIP来指导模型的解码过程,从而减少对象幻觉的发生。
- 其它亮点论文通过实证分析发现,与模型的标记似然度相比,CLIP与图像的相似度更能有效地指示幻觉。CGD是一种无需训练的简单而有效的方法,可以在保留文本生成效用的同时减少对象幻觉。实验结果表明,CGD能够有效地减少多个LVLM家族中的对象幻觉。
- 在相关研究方面,最近的研究集中于使用不同的方法来解决LVLMs中的对象幻觉问题,例如使用额外的数据集进行调整,或者结合复杂的外部工具。
沙发等你来抢
去评论
评论
沙发等你来抢