BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks

2024年12月05日
  • 简介
    多模态AI有潜力显著提升文档理解任务,例如处理收据、理解工作流程、从文档中提取数据以及总结报告。需要长结构输出的代码生成任务也可以通过多模态得到增强。尽管如此,由于训练数据的访问受限和许可限制,这些技术在商业应用中的使用往往受到限制,这阻碍了开放访问。为了解决这些问题,我们推出了BigDocs-7.5M,这是一个高质量的开放访问数据集,包含30个任务中的750万个多模态文档。我们采用高效的数据策划过程,确保数据的质量和许可兼容性。我们的过程强调责任、透明度和可追溯性,通过过滤规则、可追踪的元数据和细致的内容分析来实现。此外,我们还推出了BigDocs-Bench,一个包含10个新任务的基准套件,我们在其中创建了反映真实世界用例的数据集,涉及图形用户界面(GUI)推理和从图像生成代码。我们的实验表明,在BigDocs-Bench上进行训练可以将文档推理和结构化输出任务(如截图转HTML或图像转LaTeX生成)的平均性能提高多达25.8%,超过闭源的GPT-4o。最后,人类评估显示,人们更倾向于选择在BigDocs上训练的模型的输出,而不是GPT-4o的输出。这表明,BigDocs可以帮助学术界和开源社区利用和改进AI工具,以增强多模态能力和文档推理。该项目托管在 https://bigdocs.github.io 。
  • 图表
  • 解决问题
    该论文试图解决多模态AI在商业应用中的限制问题,特别是由于训练数据有限和许可限制导致的开放访问难题。这是一个现有问题,但通过提供大规模、高质量且开放访问的数据集来解决这个问题是新的尝试。
  • 关键思路
    论文的关键思路是创建一个名为BigDocs-7.5M的高质、开放访问的数据集,包含750万个多模态文档和30个任务。此外,还引入了一个基准测试套件BigDocs-Bench,包含10个反映实际应用场景的新任务。这一思路通过确保数据的高质量和许可兼容性,以及强调透明度和责任性,为多模态AI的研究和应用提供了新的支持。
  • 其它亮点
    论文通过高效的數據策劃過程,确保了数据的质量和许可合规性。实验设计包括与闭源模型GPT-4o的性能对比,结果显示在文档推理和结构化输出任务上平均性能提高了25.8%。此外,人类评估也显示出对BigDocs训练模型输出的偏好。项目已开源,并提供了详细的文档和数据集,便于学术界和开源社区进一步研究和改进。
  • 相关研究
    最近在这个领域中,相关研究包括《Document Understanding with Multimodal Transformers》、《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》和《Multi-modal Pre-training for Information Extraction from Financial Documents》。这些研究主要集中在多模态预训练、文档理解的布局感知模型以及特定领域的信息提取。BigDocs通过提供大规模、高质量的数据集,为这些研究方向提供了新的资源和支持。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论