MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning

2024年04月21日
  • 简介
    多模态大型语言模型(MLLMs)在许多流行的视觉推理基准测试中取得了显著进展,但它们是否具有抽象视觉推理能力仍然是一个未解决的问题。类似数独谜题,抽象视觉推理(AVR)问题需要找到控制特定任务配置(例如矩阵)中输入形状(例如数字)的高级模式(例如重复约束)。然而,现有的AVR基准测试只考虑了有限的一组模式(加法,连接),输入形状(矩形,正方形)和任务配置(3×3矩阵)。为了全面评估MLLMs的推理能力,我们引入了MARVEL,这是一个多维AVR基准测试,包含770个谜题,由六个核心知识模式、几何和抽象形状以及五种不同的任务配置组成。为了检查模型的准确性是否基于感知和推理,MARVEL在分层评估框架中通过感知问题补充了一般的AVR问题。我们在零样本和少样本设置下对MARVEL进行了全面的实验。我们的实验发现,所有模型在AVR问题上表现接近随机,与人类相比,在所有模式和任务配置下都存在显著的性能差距(40%)。对感知问题的进一步分析表明,MLLMs难以理解视觉特征(接近随机表现),甚至难以计算谜题中的图块数量(<45%),这妨碍了它们进行抽象推理的能力。我们发布了我们的整个代码和数据集。
  • 作者讲解
  • 图表
  • 解决问题
    评估多模态大语言模型(MLLMs)在抽象视觉推理能力方面的表现。
  • 关键思路
    引入一个多维度抽象视觉推理基准(MARVEL),包含六种核心知识模式、几何和抽象形状以及五种不同的任务配置,以检查模型的准确性是否基于感知和推理。
  • 其它亮点
    使用MARVEL基准测试了九种代表性的MLLMs模型在零样本和少样本情况下的表现,发现所有模型在抽象视觉推理问题上表现接近随机,与人类相比存在显著的性能差距(40%)。此外,对感知问题的进一步分析表明,MLLMs难以理解视觉特征(接近随机表现)甚至无法计算拼图中的面板数量(<45%),从而阻碍了它们进行抽象推理的能力。研究者公开了代码和数据集。
  • 相关研究
    最近的相关研究包括:《GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering》、《CLEVRER: CoLlision Events for Video REpresentation and Reasoning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问