VLind-Bench: Measuring Language Priors in Large Vision-Language Models

2024年06月13日
  • 简介
    大型视觉-语言模型(LVLM)在各种多模态任务中表现出了卓越的性能。然而,它们存在一种称为语言先验的问题,即仅基于文本模式生成响应,而忽略图像信息。解决语言先验问题至关重要,因为处理训练分布之外的图像时,它可能导致不良偏差或幻觉。尽管其重要性,目前准确测量LVLM中语言先验的方法研究不足。虽然基于反事实或分布之外的图像的现有基准可以部分用于测量语言先验,但它们未能将语言先验与其他混淆因素分离。为此,我们提出了一个名为VLind-Bench的新基准,这是第一个专门设计用于测量LVLM的语言先验或盲点的基准。它不仅包括针对反事实图像的测试以评估语言先验,还涉及一系列测试以评估更基本的能力,如常识知识、视觉感知和常识偏见。对于我们基准中的每个实例,我们确保在评估语言先验之前,所有这些基本测试都已通过,从而最大程度地减少了其他因素对评估的影响。我们对最近LVLM在我们的基准中的评估和分析表明,几乎所有模型都明显依赖于语言先验,这在该领域中提出了一个强有力的挑战。
  • 图表
  • 解决问题
    本文旨在解决大型视觉语言模型(LVLMs)的语言先验问题,即仅基于文本模式生成响应,而忽略图像信息。该问题可能导致不良偏见或幻觉,当处理训练分布之外的图像时尤为突出。当前的方法无法准确测量LVLMs的语言先验,因此需要提出新的基准来解决这个问题。
  • 关键思路
    本文提出了一个新的基准VLind-Bench,旨在衡量LVLMs的语言先验或盲目性。该基准不仅包括对反事实或分布之外的图像进行测试以评估语言先验,还涉及一系列测试以评估更基本的能力,如常识知识、视觉感知和常识偏见。在对每个实例进行评估之前,确保通过了所有这些基本测试,从而最大程度地减少其他因素对评估的影响。
  • 其它亮点
    本文的亮点包括提出了一个新的基准VLind-Bench,用于衡量LVLMs的语言先验,发现几乎所有模型都存在严重的语言先验依赖性,这是该领域的一个重要挑战。实验使用了多个数据集,包括COCO、VQA和CLEVR,并公开了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括《A Simple Framework for Contrastive Learning of Visual Representations》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论