NEW

BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks

Juan Rodriguez ,

Xiangru Jian ,

Siba Smarak Panigrahi ,

Tianyu Zhang ,

Aarash Feizi ,

Abhay Puri ,

Akshay Kalkunte ,

François Savard ,

Ahmed Masry ,

Shravan Nayak ,

Rabiul Awal ,

Mahsa Massoud ,

Amirhossein Abaskohi ,

Zichao Li ,

Suyuchen Wang ,

Pierre-André Noël ,

Mats Leon Richter ,

Saverio Vadacchino ,

Shubbam Agarwal ,

Sanket Biswas ,

Sara Shanian ,

Ying Zhang ,

Noah Bolger ,

Kurt MacDonald ,

Simon Fauvel ,

Sathwik Tejaswi ,

Srinivas Sunkara ,

Joao Monteiro ,

Krishnamurthy DJ Dvijotham ,

Torsten Scholak ,

Nicolas Chapados ,

Sepideh Kharagani ,

Sean Hughes ,

M. Özsu ,

Siva Reddy ,

Marco Pedersoli ,

Yoshua Bengio ,

Christopher Pal ,

Issam Laradji ,

Spandanna Gella ,

Perouz Taslakian ,

David Vazquez ,

Sai Rajeswar

2024年12月05日

简介

多模态AI有潜力显著提升文档理解任务，例如处理收据、理解工作流程、从文档中提取数据以及总结报告。需要长结构输出的代码生成任务也可以通过多模态得到增强。尽管如此，由于训练数据的访问受限和许可限制，这些技术在商业应用中的使用往往受到限制，这阻碍了开放访问。为了解决这些问题，我们推出了BigDocs-7.5M，这是一个高质量的开放访问数据集，包含30个任务中的750万个多模态文档。我们采用高效的数据策划过程，确保数据的质量和许可兼容性。我们的过程强调责任、透明度和可追溯性，通过过滤规则、可追踪的元数据和细致的内容分析来实现。此外，我们还推出了BigDocs-Bench，一个包含10个新任务的基准套件，我们在其中创建了反映真实世界用例的数据集，涉及图形用户界面（GUI）推理和从图像生成代码。我们的实验表明，在BigDocs-Bench上进行训练可以将文档推理和结构化输出任务（如截图转HTML或图像转LaTeX生成）的平均性能提高多达25.8%，超过闭源的GPT-4o。最后，人类评估显示，人们更倾向于选择在BigDocs上训练的模型的输出，而不是GPT-4o的输出。这表明，BigDocs可以帮助学术界和开源社区利用和改进AI工具，以增强多模态能力和文档推理。该项目托管在 https://bigdocs.github.io 。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决多模态AI在商业应用中的限制问题，特别是由于训练数据有限和许可限制导致的开放访问难题。这是一个现有问题，但通过提供大规模、高质量且开放访问的数据集来解决这个问题是新的尝试。
关键思路

论文的关键思路是创建一个名为BigDocs-7.5M的高质、开放访问的数据集，包含750万个多模态文档和30个任务。此外，还引入了一个基准测试套件BigDocs-Bench，包含10个反映实际应用场景的新任务。这一思路通过确保数据的高质量和许可兼容性，以及强调透明度和责任性，为多模态AI的研究和应用提供了新的支持。
其它亮点

论文通过高效的數據策劃過程，确保了数据的质量和许可合规性。实验设计包括与闭源模型GPT-4o的性能对比，结果显示在文档推理和结构化输出任务上平均性能提高了25.8%。此外，人类评估也显示出对BigDocs训练模型输出的偏好。项目已开源，并提供了详细的文档和数据集，便于学术界和开源社区进一步研究和改进。
相关研究

最近在这个领域中，相关研究包括《Document Understanding with Multimodal Transformers》、《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》和《Multi-modal Pre-training for Information Extraction from Financial Documents》。这些研究主要集中在多模态预训练、文档理解的布局感知模型以及特定领域的信息提取。BigDocs通过提供大规模、高质量的数据集，为这些研究方向提供了新的资源和支持。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问