- 简介本文研究了大型多模态模型(LMMs)中的视觉类比推理,与人类成年人和儿童进行了比较。 "视觉类比"是从一幅图像中推断出的抽象规则,并应用于另一幅图像。虽然已经存在用于测试LMM中视觉推理的基准,但它们需要高级技能,并省略了即使是年幼的儿童也能做出的基本视觉类比。受发展心理学的启发,我们提出了一个新的基准,包括1400个日常物品的视觉转换,用于测试LMM在视觉类比推理方面,并将其与儿童和成年人进行比较。我们将评估分为三个阶段:确定发生了什么变化(例如,颜色,数量等),它如何变化(例如,添加了一个对象),并将规则应用于新情境。我们的研究结果表明,虽然像GPT-4V,LLaVA-1.5和MANTIS这样的模型有效地识别了“什么”效果,但它们在量化“如何”以及将这个规则推广到新对象方面存在困难。相比之下,儿童和成年人在所有三个阶段都表现出更强的类比推理能力。此外,最强的测试模型GPT-4V在涉及简单视觉属性(如颜色和大小)的任务中表现更好,与人类成年人的反应时间更快相关。相反,更复杂的任务,如数字,旋转和反射,需要进行广泛的认知处理和对三维物理世界的理解,这些任务则更具挑战性。总之,这些发现突显了在主要由2D图像和文本组成的数据上训练模型的局限性。
-
- 图表
- 解决问题本论文旨在研究大型多模态模型(LMMs)在视觉类比推理方面与人类成年人和儿童的比较。作者提出了一个新的基准测试来测试LMMs在视觉类比推理方面的能力,并将其与儿童和成年人进行比较。
- 关键思路本论文的关键思路是提出一个新的基准测试,用于测试LMMs在视觉类比推理方面的能力,并将其与儿童和成年人进行比较。作者将评估分为三个阶段,以测试模型在识别变化、确定变化方式和将规则应用于新场景方面的能力。结果表明,虽然像GPT-4V、LLaVA-1.5和MANTIS这样的模型能够有效地识别“what”效果,但它们在量化“how”以及将这个规则推广到新对象方面存在困难。
- 其它亮点本文中的亮点是提出了一个新的基准测试,用于评估LMMs在视觉类比推理方面的能力,并将其与人类进行比较。实验设计了1,400个日常物品的视觉变换,以测试模型在视觉类比推理方面的能力。结果表明,与成年人和儿童相比,LMMs在视觉类比推理方面的表现较差。此外,本文还发现,GPT-4V在处理颜色和大小等简单视觉属性的任务方面表现更好,而处理数字、旋转和反射等更复杂的任务则更具挑战性。
- 最近在这个领域中,还有一些相关的研究。例如,“Visual Reasoning with Multi-hop Feature Modulation”和“Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流