OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

2024年06月12日
  • 简介
    本文介绍了OmniCorpus,一个包含10亿规模的图文交错数据集。这个数据集由多个自然文档格式的图片和文本组成,符合互联网数据的呈现范式,与人类的阅读习惯非常相似。最近的研究表明,这种数据有助于多模态上下文学习,并在多模态微调期间保持大型语言模型的能力。然而,目前图文交错数据的规模和多样性有限,限制了多模态大型语言模型的发展。本文介绍了一个高效的数据引擎,用于过滤和提取大规模高质量文档,其中包含86亿张图片和1696亿个文本标记。与对手(例如MMC4、OBELICS)相比,我们的数据集1)规模大15倍,同时保持良好的数据质量;2)具有更多样化的来源,包括英语和非英语网站以及以视频为中心的网站;3)更加灵活,易于从图文交错格式降级为纯文本语料库和图文对。通过全面的分析和实验,我们验证了所提出数据集的质量、可用性和有效性。我们希望这可以为未来的多模态模型研究提供坚实的数据基础。代码和数据已在https://github.com/OpenGVLab/OmniCorpus发布。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决当前图文交错数据规模和多样性不足的问题,提出了一个规模达到10亿的图文交错数据集OmniCorpus,为未来的多模态模型研究提供数据基础。
  • 关键思路
    论文提出了一个高效的数据引擎,从多个来源提取高质量的文档,构建了一个包含86亿张图片和1696亿个文本标记的数据集。相比于现有的数据集,OmniCorpus规模更大、来源更丰富、更灵活。
  • 其它亮点
    论文采用了综合分析和实验验证的方法,验证了OmniCorpus的质量、可用性和有效性。此外,论文还开源了代码和数据,为未来的研究提供了便利。
  • 相关研究
    在这个领域中,最近的相关研究包括MMC4和OBELICS等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问