Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

向作者提问

NEW

简介

我们提出了LoCoVQA，这是一个动态基准测试生成器，用于评估视觉语言模型（VLMs）中的长篇背景抽取式推理。LoCoVQA通过将数学推理、VQA和字符识别任务的测试示例与越来越长的视觉背景相结合，其中包括分布内和分布外的干扰图像，来增强测试示例。在这些任务中，一组多样化的VLMs在视觉背景长度增加时迅速失去性能，通常呈现出惊人的指数衰减趋势。这个测试评估了VLMs在回答查询时如何忽略不相关的信息，这对于文本领域的语言模型（LMs）来说是相当容易的任务，表明目前最先进的VLMs在许多长篇背景应用中缺乏这种基本能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

LoCoVQA试图评估视觉语言模型中长上下文的可解释推理能力，即在回答问题时忽略无关信息的能力。这是当前视觉语言模型所缺乏的关键能力。
关键思路

LoCoVQA通过增加视觉上下文的长度来评估视觉语言模型的可解释推理能力。实验结果表明，当前的视觉语言模型在面对长上下文时，表现出指数级的性能下降，无法忽略无关信息。
其它亮点

实验使用了数学推理、视觉问答和字符识别等多个任务，增加了长上下文的干扰信息，评估了当前视觉语言模型的可解释推理能力。实验结果表明，当前的视觉语言模型在长上下文任务中表现不佳。论文提出了一种新的评估方法和指标，可以用于评估视觉语言模型的可解释推理能力。
相关研究

近期的相关研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问