KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models

向作者提问

NEW

简介

本文研究了大型多模态模型（LMMs）中的视觉类比推理，与人类成年人和儿童进行了比较。 "视觉类比"是从一幅图像中推断出的抽象规则，并应用于另一幅图像。虽然已经存在用于测试LMM中视觉推理的基准，但它们需要高级技能，并省略了即使是年幼的儿童也能做出的基本视觉类比。受发展心理学的启发，我们提出了一个新的基准，包括1400个日常物品的视觉转换，用于测试LMM在视觉类比推理方面，并将其与儿童和成年人进行比较。我们将评估分为三个阶段：确定发生了什么变化（例如，颜色，数量等），它如何变化（例如，添加了一个对象），并将规则应用于新情境。我们的研究结果表明，虽然像GPT-4V，LLaVA-1.5和MANTIS这样的模型有效地识别了“什么”效果，但它们在量化“如何”以及将这个规则推广到新对象方面存在困难。相比之下，儿童和成年人在所有三个阶段都表现出更强的类比推理能力。此外，最强的测试模型GPT-4V在涉及简单视觉属性（如颜色和大小）的任务中表现更好，与人类成年人的反应时间更快相关。相反，更复杂的任务，如数字，旋转和反射，需要进行广泛的认知处理和对三维物理世界的理解，这些任务则更具挑战性。总之，这些发现突显了在主要由2D图像和文本组成的数据上训练模型的局限性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在研究大型多模态模型（LMMs）在视觉类比推理方面与人类成年人和儿童的比较。作者提出了一个新的基准测试来测试LMMs在视觉类比推理方面的能力，并将其与儿童和成年人进行比较。
关键思路

本论文的关键思路是提出一个新的基准测试，用于测试LMMs在视觉类比推理方面的能力，并将其与儿童和成年人进行比较。作者将评估分为三个阶段，以测试模型在识别变化、确定变化方式和将规则应用于新场景方面的能力。结果表明，虽然像GPT-4V、LLaVA-1.5和MANTIS这样的模型能够有效地识别“what”效果，但它们在量化“how”以及将这个规则推广到新对象方面存在困难。
其它亮点

本文中的亮点是提出了一个新的基准测试，用于评估LMMs在视觉类比推理方面的能力，并将其与人类进行比较。实验设计了1,400个日常物品的视觉变换，以测试模型在视觉类比推理方面的能力。结果表明，与成年人和儿童相比，LMMs在视觉类比推理方面的表现较差。此外，本文还发现，GPT-4V在处理颜色和大小等简单视觉属性的任务方面表现更好，而处理数字、旋转和反射等更复杂的任务则更具挑战性。
相关研究

最近在这个领域中，还有一些相关的研究。例如，“Visual Reasoning with Multi-hop Feature Modulation”和“Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问