CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

2024年06月26日
  • 简介
    图表理解在应用多模态大语言模型(MLLMs)分析科学论文或财务报告等实际任务时起着关键作用。然而,现有数据集通常关注于模板化问题的过度简化和同质化图表,导致对进展的过于乐观的衡量。我们证明,尽管开源模型在这些基准测试中似乎优于强大的专有模型,但稍微不同的图表或问题的简单压力测试可能会使性能下降高达34.5%。在这项工作中,我们提出了CharXiv,一个全面的评估套件,包括来自arXiv论文的2,323个自然、具有挑战性和多样化的图表。CharXiv包括两种类型的问题:1)关于检查基本图表元素的描述性问题和2)需要合成图表中复杂视觉元素的信息的推理问题。为确保质量,所有图表和问题均由人类专家手动挑选、策划和验证。我们的结果揭示了最强专有模型(即GPT-4o)的推理能力与最强开源模型(即InternVL Chat V1.5)的推理能力之间存在一个被低估的巨大差距,GPT-4o的准确率达到47.1%,而InternVL Chat V1.5的准确率为29.2%。所有模型都远远落后于人类的80.5%的表现,突显了现有MLLM图表理解能力的弱点。我们希望CharXiv通过提供更现实和真实的进展衡量标准,促进未来关于MLLM图表理解的研究。项目页面和排行榜:https://charxiv.github.io/。
  • 图表
  • 解决问题
    论文旨在解决使用Multimodal Large Language Models (MLLMs)分析科学论文或金融报告时,对图表的理解问题。现有的数据集过于简单和同质化,导致进展的评估过于乐观。
  • 关键思路
    CharXiv是一个包含2323个自然、具有挑战性和多样化的图表的综合评估套件,包括两种类型的问题:1)关于检查基本图表元素的描述性问题,2)需要综合图表中复杂视觉元素的信息的推理问题。为了确保质量,所有图表和问题都由人类专家手动挑选、策划和验证。
  • 其它亮点
    该论文揭示了最强专有模型(GPT-4o)和最强开源模型(InternVL Chat V1.5)之间推理能力的实质性差距,最强专有模型的准确率为47.1%,而最强开源模型的准确率为29.2%。所有模型都远远落后于人类的80.5%性能,突显了现有MLLMs图表理解能力的弱点。该论文提供了一个更现实和忠实的进展评估方法,希望能够促进未来关于MLLMs图表理解的研究。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)《GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering》;2)《The GQA Dataset: An Environment for Studying Question Answering in Real-World Images》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论