- 简介多模态AI有潜力显著提升文档理解任务,例如处理收据、理解工作流程、从文档中提取数据以及总结报告。需要长结构输出的代码生成任务也可以通过多模态得到增强。尽管如此,由于训练数据的访问受限和许可限制,这些技术在商业应用中的使用往往受到限制,这阻碍了开放访问。为了解决这些问题,我们推出了BigDocs-7.5M,这是一个高质量的开放访问数据集,包含30个任务中的750万个多模态文档。我们采用高效的数据策划过程,确保数据的质量和许可兼容性。我们的过程强调责任、透明度和可追溯性,通过过滤规则、可追踪的元数据和细致的内容分析来实现。此外,我们还推出了BigDocs-Bench,一个包含10个新任务的基准套件,我们在其中创建了反映真实世界用例的数据集,涉及图形用户界面(GUI)推理和从图像生成代码。我们的实验表明,在BigDocs-Bench上进行训练可以将文档推理和结构化输出任务(如截图转HTML或图像转LaTeX生成)的平均性能提高多达25.8%,超过闭源的GPT-4o。最后,人类评估显示,人们更倾向于选择在BigDocs上训练的模型的输出,而不是GPT-4o的输出。这表明,BigDocs可以帮助学术界和开源社区利用和改进AI工具,以增强多模态能力和文档推理。该项目托管在 https://bigdocs.github.io 。
- 图表
- 解决问题该论文试图解决多模态AI在商业应用中的限制问题,特别是由于训练数据有限和许可限制导致的开放访问难题。这是一个现有问题,但通过提供大规模、高质量且开放访问的数据集来解决这个问题是新的尝试。
- 关键思路论文的关键思路是创建一个名为BigDocs-7.5M的高质、开放访问的数据集,包含750万个多模态文档和30个任务。此外,还引入了一个基准测试套件BigDocs-Bench,包含10个反映实际应用场景的新任务。这一思路通过确保数据的高质量和许可兼容性,以及强调透明度和责任性,为多模态AI的研究和应用提供了新的支持。
- 其它亮点论文通过高效的數據策劃過程,确保了数据的质量和许可合规性。实验设计包括与闭源模型GPT-4o的性能对比,结果显示在文档推理和结构化输出任务上平均性能提高了25.8%。此外,人类评估也显示出对BigDocs训练模型输出的偏好。项目已开源,并提供了详细的文档和数据集,便于学术界和开源社区进一步研究和改进。
- 最近在这个领域中,相关研究包括《Document Understanding with Multimodal Transformers》、《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》和《Multi-modal Pre-training for Information Extraction from Financial Documents》。这些研究主要集中在多模态预训练、文档理解的布局感知模型以及特定领域的信息提取。BigDocs通过提供大规模、高质量的数据集,为这些研究方向提供了新的资源和支持。
沙发等你来抢
去评论
评论
沙发等你来抢