PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

2024年06月20日
  • 简介
    最近大型多模态模型(LMMs)的进展利用了广泛的多模态数据集来增强复杂的知识驱动任务的能力。然而,感知和推理错误方面的持续挑战限制了它们的功效,特别是在解释复杂的视觉数据和推断多模态关系方面。为了解决这些问题,我们引入了一种新的数据集格式,PIN(配对和交错的多模态文档),旨在显著提高多模态训练的深度和广度。PIN格式基于三个基本原则:知识密度、可伸缩性和支持多样化的训练模式。这种创新的格式结合了markdown文件和全面的图像,用密集的知识结构和多样化的训练策略丰富了训练数据。我们提供了PIN-14M,一个包含1400万个样本的开源数据集,来源于各种中英文资源,旨在包括复杂的网络和科学内容。这个数据集是精心构建的,以确保数据质量和道德完整性,旨在促进先进的训练策略,并提高模型对常见多模态训练陷阱的鲁棒性。我们的初步结果构成了本技术报告的基础,表明PIN格式在提高LMM性能方面具有显著的潜力,并计划未来扩展和详细评估其对模型能力的影响。
  • 图表
  • 解决问题
    论文旨在通过引入新的数据集格式PIN,解决大型多模态模型在理解复杂视觉数据和推断多模态关系方面存在的感知和推理错误的问题。
  • 关键思路
    PIN格式是建立在知识密集度、可扩展性和支持多样化训练模态三个基本原则之上的,通过将markdown文件和全面的图像相结合,为训练数据提供了丰富的知识结构和多样化的训练策略。
  • 其它亮点
    论文介绍了一个名为PIN-14M的开源数据集,包含了来自不同来源的1400万个样本,旨在包括复杂的网络和科学内容。作者精心构建了这个数据集以确保数据质量和道德完整性,以促进高级训练策略和提高模型对常见多模态训练陷阱的鲁棒性。实验结果表明,PIN格式在提高LMM性能方面具有显著潜力。
  • 相关研究
    最近的相关研究包括:《Large-scale Multimodal Learning with Missing Modality》、《Multimodal Learning: A Survey and Taxonomy》、《Multimodal Machine Learning: A Survey and Taxonomy》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论