- 简介大型视觉语言模型(LVLM)最近在图像字幕和许多图像理解任务(例如视觉问答)方面极大地推动了技术的发展。然而,LVLM经常会出现“幻觉”,即生成的字幕中提到的概念在图像中找不到。这些幻觉削弱了LVLM的可信度,是普遍采用LVLM的主要障碍之一。最近的研究表明,加入“基础目标”(即明确将图像区域或对象与文本跨度对齐的目标)可以减少LVLM的幻觉。虽然这种说法很直观,但我们认为,这种减少效果并没有经过实验证明,因为评估协议存在缺陷:(i)依赖于已经广泛用于LVLM训练的数据(即MSCOCO),(ii)通过问答而不是开放式字幕生成来衡量幻觉。相比之下,在本研究中,我们提供了第一个系统分析细粒度对象基础对LVLM幻觉影响的研究,并采用更真实地捕捉LVLM幻觉的评估协议。我们在三个LLM主干上进行了大量实验,结果表明,在开放式字幕生成中,基础目标对对象幻觉几乎没有影响。
- 图表
- 解决问题论文旨在探讨大型视觉语言模型(LVLMs)在图像字幕生成中存在的虚构问题,并研究是否添加对象对齐目标可以减少这种虚构。研究旨在解决LVLMs的虚构问题,这是该领域中的一个新问题。
- 关键思路论文通过系统分析细粒度对象对齐对LVLMs的虚构问题的影响,发现在开放式字幕生成中,对象对齐目标对减少对象虚构的影响很小或没有影响。
- 其它亮点论文使用三个主干LLMs进行了广泛的实验,发现对象对齐对开放式字幕生成中的对象虚构影响很小。研究表明,当前评估协议存在缺陷,需要更现实地捕捉LVLM虚构。论文提供了一个新的评估协议,以更准确地评估LVLM虚构。该研究的代码和数据集已经公开。
- 最近的相关研究包括使用不同的数据集和评估协议来评估LVLMs的虚构问题,以及探索其他解决方案,如使用多模态输入和改进的模型体系结构。相关论文包括“VisualBERT: A Simple and Performant Baseline for Vision and Language”和“Unified Vision-Language Pre-Training for Image Captioning and VQA”。
沙发等你来抢
去评论
评论
沙发等你来抢