SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

简介

大型多模态模型（LMMs）已经证明在许多任务和领域中具有灵活性和可推广性。虽然它们在科学研究中具有很强的潜力，但它们在这个领域的能力还没有得到很好的表征。科学研究的一个关键方面是理解和解释图表，这些图表作为复杂信息的丰富、压缩的来源。在这项工作中，我们提出了SciFIBench，一个科学图表解释基准。我们的主要基准包括一个1000个问题的黄金集，这些问题分为两个任务，涵盖12个类别。这些问题是从CS arXiv论文的图表和标题中策划出来的，使用对抗过滤来寻找难以处理的负面情况，并进行人工验证以进行质量控制。我们在SciFIBench上评估了26个LMMs，发现这是一个具有挑战性的基准。最后，我们调查了LMMs在我们基准的扩展问题集上的对齐和推理忠实度。我们发布SciFIBench以鼓励在这个领域的进展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探索大型多模型模型（LMM）在科学研究中的应用，特别是在理解和解释科学图表方面。作者提出了一个基准测试SciFIBench，用于评估LMM在解答科学图表相关问题时的表现。
关键思路

本文提出了SciFIBench基准测试，用于评估LMM在解答科学图表相关问题时的表现。基准测试包括两个任务和12个类别的1000个多项选择题，其中问题来自CS arXiv论文的图表和标题。作者还探讨了LMM在基准测试中的对齐和推理忠实度。
其它亮点

本文的亮点包括：提出了一个新的基准测试SciFIBench，用于评估LMM在解答科学图表相关问题时的表现；评估了26个LMM在SciFIBench上的表现；探究了LMM在基准测试中的对齐和推理忠实度。
相关研究

在相关研究方面，最近的研究包括使用LMM处理自然语言处理任务和图像处理任务。

SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

提问交流

提问交流