DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models

2024年06月17日
  • 简介
    科学文献记录了研究成果和宝贵的人类知识,构成了一个高质量数据的庞大语料库。利用从这些文献中提取的多模态数据,评估大型模型处理科学文献相关任务的能力具有重要意义。尽管有了一些有希望的进展,但是大型模型在多页科学文献的提取和理解任务上仍然表现不佳,并且它们处理文档内数据格式(如图表和方程式)的能力仍未得到充分发掘。为了解决这些问题,我们提出了DocGenome,这是一个结构化文档基准,通过使用我们的自定义自动标注流程对arXiv开放获取社区中的153个学科的500K份科学文献进行注释构建。DocGenome具有四个关键特征:1)完整性:它是第一个结构化所有模态数据的数据集,包括13个布局属性及其LaTeX源代码。2)逻辑性:它提供了每个科学文献中不同实体之间的6种逻辑关系。3)多样性:它涵盖了各种文档相关任务,包括文档分类、视觉定位、文档布局检测、文档转换、开放式单页QA和多页QA。4)正确性:它经过专业团队进行了严格的质量控制检查。我们进行了广泛的实验,以展示DocGenome的优势,并客观评估大型模型在我们的基准上的性能。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大型模型在多页科学文档提取和理解任务中性能不佳以及处理图表和方程等文档内数据格式的能力不足的问题。
  • 关键思路
    本文提出了一个名为DocGenome的结构化文档基准,通过自定义的自动标注流程,对arXiv开放获取社区中的500K篇科学文档进行注释,涵盖了13种布局属性及其LaTeX源代码等多种模态数据,并提供了6种实体之间的逻辑关系。DocGenome基准包括文档分类、视觉定位、文档布局检测、文档转换、单页开放式QA和多页QA等多种文档导向任务。
  • 其它亮点
    本文的亮点包括:1)DocGenome是第一个涵盖所有模态数据的文档基准;2)提供了6种实体之间的逻辑关系;3)涵盖了多种文档导向任务;4)经过了专业团队的严格质量控制。实验结果表明DocGenome基准的优越性,并对大型模型在基准上的性能进行了客观评估。
  • 相关研究
    最近的相关研究包括:1)SciCite: A Unified Framework for Citation-Based Summarization and Scientific Paper Classification;2)CORD-19: The Covid-19 Open Research Dataset;3)ArxivTimes:Arxiv文章的自动文本摘要。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问