- 简介近期对于大型视觉-语言模型(LVLMs)在实际应用中的兴趣受到了幻觉或生成文本与事实信息不一致的显著挑战的影响。在本文中,我们首先对幻觉进行了深入分析,并发现了关于LVLMs如何以及何时出现幻觉的几个新见解。通过我们的分析,我们表明:(1)社区的努力主要集中在减少与视觉识别(VR)提示相关的幻觉上(例如,仅需要描述图像的提示),从而忽略了认知提示(例如,需要对图像内容进行推理等额外技能的提示)的幻觉。(2)LVLMs缺乏视觉感知,即它们可以看到图像,但不一定能理解或感知输入图像。我们分析了对认知提示的响应,并显示LVLMs由于感知差距而出现幻觉:尽管LVLMs可以准确识别输入图像中的视觉元素并具有足够的认知技能,但它们难以准确地做出响应并出现幻觉。为了克服这个缺点,我们提出了一种名为视觉描述基础解码(VDGD)的简单、强大且无需训练的方法来缓解幻觉。具体而言,我们首先描述图像并将其作为指令的前缀添加。接下来,在自回归解码过程中,我们根据它们与描述之间的KL散度(KLD)从可信候选项中进行采样,其中较低的KLD给予更高的优先级。在几个基准测试和LVLMs上的实验结果表明,VDGD在减少幻觉方面明显优于其他基线。我们还提出了VaLLu,这是一个用于全面评估LVLMs认知能力的基准。
- 图表
- 解决问题论文旨在解决大视觉语言模型(LVLMs)中出现的幻觉或生成的文本与实际信息之间的不一致性的问题。作者认为当前的研究主要集中在减少与视觉识别相关的幻觉,而忽视了与认知提示相关的幻觉。
- 关键思路作者提出了一种名为VDGD的简单、强大且无需训练的方法,以减轻幻觉。具体来说,他们在自回归解码期间从可能的候选项中进行采样,根据它们与描述之间的KL散度(KLD)进行排序,其中较低的KLD得到更高的优先级。
- 其它亮点论文分析了LVLMs中幻觉的原因,并提出了一种新的解决方案VDGD。作者还提出了一个名为VaLLu的基准测试,用于全面评估LVLMs的认知能力。实验结果表明,VDGD在减少幻觉方面显著优于其他基线。
- 最近的相关研究包括《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
沙发等你来抢
去评论
评论
沙发等你来抢