SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

2024年05月14日
  • 简介
    大型多模态模型(LMMs)已经证明在许多任务和领域中具有灵活性和可推广性。虽然它们在科学研究中具有很强的潜力,但它们在这个领域的能力还没有得到很好的表征。科学研究的一个关键方面是理解和解释图表,这些图表作为复杂信息的丰富、压缩的来源。在这项工作中,我们提出了SciFIBench,一个科学图表解释基准。我们的主要基准包括一个1000个问题的黄金集,这些问题分为两个任务,涵盖12个类别。这些问题是从CS arXiv论文的图表和标题中策划出来的,使用对抗过滤来寻找难以处理的负面情况,并进行人工验证以进行质量控制。我们在SciFIBench上评估了26个LMMs,发现这是一个具有挑战性的基准。最后,我们调查了LMMs在我们基准的扩展问题集上的对齐和推理忠实度。我们发布SciFIBench以鼓励在这个领域的进展。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在探索大型多模型模型(LMM)在科学研究中的应用,特别是在理解和解释科学图表方面。作者提出了一个基准测试SciFIBench,用于评估LMM在解答科学图表相关问题时的表现。
  • 关键思路
    本文提出了SciFIBench基准测试,用于评估LMM在解答科学图表相关问题时的表现。基准测试包括两个任务和12个类别的1000个多项选择题,其中问题来自CS arXiv论文的图表和标题。作者还探讨了LMM在基准测试中的对齐和推理忠实度。
  • 其它亮点
    本文的亮点包括:提出了一个新的基准测试SciFIBench,用于评估LMM在解答科学图表相关问题时的表现;评估了26个LMM在SciFIBench上的表现;探究了LMM在基准测试中的对齐和推理忠实度。
  • 相关研究
    在相关研究方面,最近的研究包括使用LMM处理自然语言处理任务和图像处理任务。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问