GeomVerse: A Systematic Evaluation of Large Models for Geometric Reasoning

2023年12月19日
  • 简介
    大型语言模型在仅有文本输入问题时,在多跳数学推理方面表现出了令人印象深刻的结果。然而,许多数学推理问题包含文本和图像。随着视觉语言模型(VLM)的日益普及,了解它们在这些问题的推理能力是至关重要的。在本文中,我们通过几何问题的视角评估了VLM在各个方面的推理能力。我们按照多个轴线控制难度级别,程序生成了一个几何问题的合成数据集,从而实现了系统评估。使用我们的基准测试来评估最先进的VLM的实证结果表明,这些模型在几何学等学科(以及一般化的需要类似推理的其他主题)方面的能力并不像以前的基准测试所示那样强。这尤其清晰地体现在我们基准测试的各个深度级别的构建中,因为解决更深层次的问题需要较长的推理链,而不是额外的记忆知识。我们发布了该数据集,以便进一步研究这个领域。
  • 图表
  • 解决问题
    评估视觉语言模型在几何问题推理方面的能力
  • 关键思路
    使用合成数据集评估当前视觉语言模型在几何问题推理方面的能力,发现其表现不如之前的基准测试所示
  • 其它亮点
    论文使用了一个可控制难度的合成数据集,评估了当前视觉语言模型在几何问题推理方面的能力,结果表明这些模型并不如之前的基准测试所示那么强大。研究者释放了这个数据集以供进一步研究
  • 相关研究
    最近的相关研究包括:《Visual Reasoning Beyond Object Recognition: Perspective from Visual Question Answering》、《Learning to Reason: End-to-End Module Networks for Visual Question Answering》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论