Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions

2024年05月18日
  • 简介
    尽管诸如VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG和VisualCOMET等视觉-语言理解(VLU)基准已被广泛采用,但我们的分析揭示了一种影响它们完整性的普遍问题:这些基准包含一些答案依赖于提供的上下文无法支持的假设的样本。在这些数据上训练模型会促进偏见学习和幻觉,因为模型倾向于做出类似的不合理假设。为了解决这个问题,我们在每个样本中收集可用的上下文数据,并训练一个上下文选择模块来促进基于证据的模型预测。多个基准的强大改进证明了我们方法的有效性。此外,我们开发了一个通用的上下文感知抑制(CARA)检测器,以识别缺乏足够上下文的样本,并通过放弃回答来提高模型的准确性。CARA对它没有经过训练的新基准具有泛化性,强调了它在未来VLU基准中检测或清理缺乏上下文的样本方面的实用性。最后,我们策划了一个上下文歧义和充足性评估(CASE)集,以评估缺乏上下文检测器的性能。总的来说,我们的工作在确保视觉语言模型在复杂的现实场景中生成可信和基于证据的输出方面取得了重大进展。
  • 图表
  • 解决问题
    论文旨在解决VLU基准测试中存在的问题,即其中的样本答案依赖于未被提供的上下文假设,从而导致偏见和虚假结果。
  • 关键思路
    通过收集上下文数据并训练上下文选择模块,使模型能够基于证据做出预测,从而解决上述问题。此外,开发了一种通用的CARA检测器来识别缺乏足够上下文的样本,并通过放弃回答来提高模型的准确性。
  • 其它亮点
    论文在多个基准测试中均取得了显著提高,证明了其方法的有效性。此外,还开发了CARA检测器和CASE评估集,为未来的研究提供了有用的工具。
  • 相关研究
    最近的相关研究包括:VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG和VisualCOMET等VLU基准测试。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论