OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

2024年06月12日
  • 简介
    本文介绍了一个名为OmniCorpus的数据集,它是一个包含多个图像和文本的自然文档格式的图文交替数据,符合互联网数据呈现范式,与人类阅读习惯十分相似。最近的研究表明,这种数据有助于多模态上下文学习,并在多模态微调期间保持大型语言模型的能力。然而,当前图文交替数据的规模和多样性有限,限制了多模态大型语言模型的发展。因此,作者使用高效的数据引擎,过滤和提取大规模高质量文档,创建了一个包含86亿张图像和1696亿个文本标记的10亿级别的图文交替数据集。与其他数据集相比(如MMC4、OBELICS),我们的数据集具有更大的规模(15倍)和更多样化的来源(包括英语和非英语网站以及以视频为中心的网站),并且更加灵活,易于从图文交替格式转换为纯文本语料库和图文对。通过全面的分析和实验,我们验证了所提出数据集的质量、可用性和有效性。希望这能为未来的多模态模型研究提供坚实的数据基础。代码和数据已在https://github.com/OpenGVLab/OmniCorpus上发布。
  • 作者讲解
  • 图表
  • 解决问题
    论文介绍了一个10亿规模的图文交错数据集OmniCorpus,旨在解决当前图文交错数据集规模和多样性有限的问题,为未来的多模态模型研究提供数据基础。
  • 关键思路
    论文提出了一个高效的数据引擎,从多样化的来源中过滤和提取大规模高质量的文档,包含86亿张图片和1696亿个文本标记。相比现有的图文交错数据集,OmniCorpus规模大15倍,来源更加多样化,且更加灵活。
  • 其它亮点
    论文通过实验验证了OmniCorpus数据集的质量、可用性和有效性,并开源了代码和数据。值得关注的是,OmniCorpus数据集的来源包含英语和非英语网站以及以视频为中心的网站。
  • 相关研究
    在这个领域中,最近的相关研究包括MMC4和OBELICS等图文交错数据集的构建,以及多模态模型的研究,如CLIP和ViLBERT等模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问