MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning

向作者提问

NEW

简介

多模态大型语言模型（MLLMs）在许多流行的视觉推理基准测试中取得了显著进展，但它们是否具有抽象视觉推理能力仍然是一个未解决的问题。类似数独谜题，抽象视觉推理（AVR）问题需要找到控制特定任务配置（例如矩阵）中输入形状（例如数字）的高级模式（例如重复约束）。然而，现有的AVR基准测试只考虑了有限的一组模式（加法，连接），输入形状（矩形，正方形）和任务配置（3×3矩阵）。为了全面评估MLLMs的推理能力，我们引入了MARVEL，这是一个多维AVR基准测试，包含770个谜题，由六个核心知识模式、几何和抽象形状以及五种不同的任务配置组成。为了检查模型的准确性是否基于感知和推理，MARVEL在分层评估框架中通过感知问题补充了一般的AVR问题。我们在零样本和少样本设置下对MARVEL进行了全面的实验。我们的实验发现，所有模型在AVR问题上表现接近随机，与人类相比，在所有模式和任务配置下都存在显著的性能差距（40%）。对感知问题的进一步分析表明，MLLMs难以理解视觉特征（接近随机表现），甚至难以计算谜题中的图块数量（<45%），这妨碍了它们进行抽象推理的能力。我们发布了我们的整个代码和数据集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估多模态大语言模型（MLLMs）在抽象视觉推理能力方面的表现。
关键思路

引入一个多维度抽象视觉推理基准（MARVEL），包含六种核心知识模式、几何和抽象形状以及五种不同的任务配置，以检查模型的准确性是否基于感知和推理。
其它亮点

使用MARVEL基准测试了九种代表性的MLLMs模型在零样本和少样本情况下的表现，发现所有模型在抽象视觉推理问题上表现接近随机，与人类相比存在显著的性能差距（40%）。此外，对感知问题的进一步分析表明，MLLMs难以理解视觉特征（接近随机表现）甚至无法计算拼图中的面板数量（<45%），从而阻碍了它们进行抽象推理的能力。研究者公开了代码和数据集。
相关研究

最近的相关研究包括：《GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering》、《CLEVRER: CoLlision Events for Video REpresentation and Reasoning》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问