- 简介尽管Vision-Language Understanding(VLU)基准测试如VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG和VisualCOMET已被广泛采用,但我们的分析揭示了一种影响它们完整性的普遍问题:这些基准测试包含一些样本,其中答案依赖于提供的上下文不支持的假设。在这些数据上训练模型会促进有偏差的学习和幻觉,因为模型往往会做出类似的不合理假设。为了解决这个问题,我们在每个样本中收集可用的上下文数据,并训练一个上下文选择模块,以促进基于证据的模型预测。在多个基准测试中的强大改进证明了我们方法的有效性。此外,我们开发了一个通用的上下文感知的放弃(CARA)检测器,以识别缺乏足够上下文的样本,并通过放弃回答来增强模型的准确性。CARA在未经过训练的新基准测试中表现出泛化能力,凸显了它在检测或清理具有不充分上下文的样本方面对未来VLU基准测试的实用性。最后,我们策划了一个上下文歧义和充足性评估(CASE)集,以评估不充分上下文检测器的性能。总体而言,我们的工作在确保视觉语言模型在复杂的现实情境中生成可信和基于证据的输出方面代表了一个重大进展。
- 图表
- 解决问题本论文旨在解决VLU基准测试中存在的问题,即存在样本答案依赖于提供的上下文无法支持的假设的情况。这会导致模型出现偏见学习和幻觉,从而影响模型的准确性。
- 关键思路为了解决这个问题,论文提出了收集每个样本的上下文数据,并训练一个上下文选择模块来促进基于证据的模型预测。此外,论文还开发了一个通用的CARA检测器,用于识别缺乏足够上下文的样本,并通过放弃回答来增强模型的准确性。最后,论文还提供了一个CASE数据集,用于评估上下文不足检测器的性能。
- 其它亮点论文实现了多个基准测试的显著改进,并开发了通用的CARA检测器,可以推广到新的基准测试中。此外,论文还提供了一个新的CASE数据集,用于评估上下文不足检测器的性能。
- 在最近的相关研究中,还有一些关于VLU基准测试的研究,例如VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG和VisualCOMET。
沙发等你来抢
去评论
评论
沙发等你来抢