Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding

2024年06月27日
  • 简介
    视觉论证常用于广告或社会问题,依靠图像来说服观众做出或相信某些事情。理解这些论证需要有选择性的视觉:图像中只有特定的视觉刺激与论证相关,而相关性只能在更广泛的论证结构的背景下理解。虽然人类观众很容易欣赏视觉论证,但我们要问:今天的人工智能是否能够具有类似的理解能力呢? 我们收集并发布了VisArgs,这是一个注释语料库,旨在明确视觉论证背后的(通常是隐含的)结构。VisArgs包括1,611个图像,伴随着三种类型的文本注释:5,112个视觉前提(带区域注释),5,574个常识前提和将它们连接到更广泛的论证的推理树。我们提出了三个在VisArgs上的任务,以探究机器对视觉论证理解的能力:前提定位、前提识别和推导结论。实验表明,1)机器无法完全识别相关的视觉线索。表现最好的模型GPT-4-O的准确率仅达到78.5%,而人类达到了98.0%。当比较集从图像外的对象变为图像内无关的对象时,所有模型都表现出性能下降,平均准确率下降了19.5%。此外,2)这种限制是影响它们理解视觉论证表现的最大因素。大多数模型在推导视觉论证的结论时,给出相关的视觉前提作为额外输入时,比其他输入更有改善。
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图探究今天的人工智能是否能够像人类一样理解视觉论证,即通过图像来说服观众做或相信某事。具体而言,论文提出了三个任务来测试机器对视觉论证的理解能力:前提的定位、前提的识别和结论的推断。
  • 关键思路
    本论文的关键思路是构建一个包含图像、视觉前提和常识前提的数据集VisArgs,并将它们连接到更广泛的论证结构中。通过这个数据集,论文发现机器在识别相关视觉线索方面存在局限性,这是影响它们理解视觉论证的最大因素。此外,论文还发现,将相关视觉前提作为额外输入可以提高机器的结论推断能力。
  • 其它亮点
    本论文的亮点包括:1.构建了一个包含图像、视觉前提和常识前提的数据集VisArgs,并将它们连接到更广泛的论证结构中;2.通过实验发现,机器在识别相关视觉线索方面存在局限性,这是影响它们理解视觉论证的最大因素;3.实验还表明,将相关视觉前提作为额外输入可以提高机器的结论推断能力。
  • 相关研究
    在相关研究方面,最近的一些研究包括:1.《视觉推理:探索、解释和预测视觉世界》(Visual Reasoning: Exploring, Explaining, and Predicting Visual World);2.《使用深度学习进行视觉论证的初步研究》(A Preliminary Study on Visual Argumentation with Deep Learning)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问