SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

向作者提问

NEW

简介

这段摘要介绍了科学研究文章中的问题解答是一个重要的研究领域，可以帮助读者快速解决他们的疑问。然而，现有的基于科学论文的问答（QA）数据集在规模上有限，并且仅关注文本内容。为了解决这个限制，作者介绍了SPIQA（Scientific Paper Image Question Answering），这是第一个专门设计用于解释计算机科学各个领域科学研究文章中复杂图表的大规模QA数据集。作者利用多模态大语言模型（MLLMs）理解图像的广度和能力，采用自动和手动策划创建了这个数据集。SPIQA包含270K个问题，分为训练、验证和三个不同的评估部分。通过与12个著名的基础模型的广泛实验，作者评估了当前多模态系统理解研究文章微妙方面的能力。此外，作者提出了一种上下文检索的思维链（CoT）评估策略，允许细粒度、逐步评估和提高模型性能。作者进一步探讨了通过额外的文本信息提高性能的上限，突出了其对未来研究的有前途的潜力以及数据集对改变我们与科学文献互动的影响。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决现有科学文献中针对复杂图表的问题回答数据集规模有限，且仅关注文本内容的局限性。
关键思路

论文提出了SPIQA数据集，是第一个专门设计用于解释科学研究文章中复杂图表的大规模问答数据集。通过利用多模态大型语言模型的广泛专业知识和能力来理解图表，采用自动和手动策划来创建数据集。
其它亮点

SPIQA数据集包含270K个问题，涵盖了各种绘图、图表、表格、示意图和结果可视化。论文通过与12个著名的基础模型的广泛实验评估了当前多模态系统理解研究文章细微方面的能力。此外，论文提出了一种具有上下文检索的思维链（CoT）评估策略，可以进行细粒度、逐步评估和提高模型性能。论文还探讨了通过额外的文本信息提高性能的上限，强调了其对未来研究和数据集对改变我们与科学文献的交互方式的影响的有希望的潜力。
相关研究

最近在该领域中的相关研究包括：1.《Visual7W: Grounded Question Answering in Images》；2.《CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning》；3.《VQA: Visual Question Answering》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问