- 简介大型视觉语言模型(LVLMs)在各种多模态任务中展现出了出色的性能。然而,它们存在一种称为语言先验的问题,即仅基于文本模式生成响应,而忽略图像信息。解决语言先验问题至关重要,因为在处理训练分布之外的图像时,它可能导致不良偏差或幻觉。尽管它很重要,但目前精确测量LVLMs中语言先验的方法研究较少。虽然基于反事实或分布外图像的现有基准可以部分用于测量语言先验,但它们未能将语言先验与其他混淆因素分离。为此,我们提出了一个名为VLind-Bench的新基准,它是专门设计用来测量LVLMs的语言先验或盲目性的第一个基准。它不仅包括对反事实图像的测试以评估语言先验,还涉及一系列测试以评估更基本的能力,如常识知识、视觉感知和常识偏见。对于我们基准中的每个实例,在评估语言先验之前,我们确保通过了所有这些基本测试,从而最大程度地减少了其他因素对评估的影响。我们基准中最近的LVLMs的评估和分析揭示,几乎所有模型都表现出对语言先验的显著依赖,这在该领域提出了一个强大的挑战。
- 图表
- 解决问题本论文旨在解决大型视觉语言模型(LVLMs)中存在的语言先验问题,即仅基于文本模式生成响应而忽略图像信息的问题,提出了一种新的基准测试VLind-Bench来衡量LVLMs的语言先验,以及评估LVLMs的基本能力和常识知识。
- 关键思路本论文提出了一种新的基准测试VLind-Bench,首次专门设计用于衡量LVLMs的语言先验,并在评估之前通过一系列测试来确保LVLMs的基本能力和常识知识,从而最小化其他因素对评估的影响。
- 其它亮点论文设计了VLind-Bench基准测试,包括测试对抗性图像以评估语言先验,以及评估基本能力和常识知识。实验结果表明,几乎所有模型都存在严重的语言先验依赖性,这是该领域面临的一个重大挑战。
- 近期的相关研究包括:《Counterfactual Samples Synthesizing for Robust Visual Question Answering》、《Learning to Learn from Noisy Labeled Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢