NEW

OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Qingyun Li ,

Zhe Chen ,

Weiyun Wang ,

Wenhai Wang ,

Shenglong Ye ,

Zhenjiang Jin ,

Guanzhou Chen ,

Yinan He ,

Zhangwei Gao ,

Erfei Cui ,

Jiashuo Yu ,

Hao Tian ,

Jiasheng Zhou ,

Chao Xu ,

Bin Wang ,

Xingjian Wei ,

Wei Li ,

Wenjian Zhang ,

Bo Zhang ,

Pinlong Cai ,

Licheng Wen ,

Xiangchao Yan ,

Pei Chu ,

Yi Wang ,

Min Dou ,

Changyao Tian ,

Xizhou Zhu ,

Lewei Lu ,

Yushi Chen ,

Junjun He ,

Tong Lu ,

Yali Wang ,

Limin Wang ,

Dahua Lin ,

Yu Qiao ,

Botian Shi ,

Conghui He ,

Jifeng Dai

2024年06月12日

简介

本文介绍了OmniCorpus，一个包含10亿规模的图文交错数据集。这个数据集由多个自然文档格式的图片和文本组成，符合互联网数据的呈现范式，与人类的阅读习惯非常相似。最近的研究表明，这种数据有助于多模态上下文学习，并在多模态微调期间保持大型语言模型的能力。然而，目前图文交错数据的规模和多样性有限，限制了多模态大型语言模型的发展。本文介绍了一个高效的数据引擎，用于过滤和提取大规模高质量文档，其中包含86亿张图片和1696亿个文本标记。与对手（例如MMC4、OBELICS）相比，我们的数据集1）规模大15倍，同时保持良好的数据质量；2）具有更多样化的来源，包括英语和非英语网站以及以视频为中心的网站；3）更加灵活，易于从图文交错格式降级为纯文本语料库和图文对。通过全面的分析和实验，我们验证了所提出数据集的质量、可用性和有效性。我们希望这可以为未来的多模态模型研究提供坚实的数据基础。代码和数据已在https://github.com/OpenGVLab/OmniCorpus发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决当前图文交错数据规模和多样性不足的问题，提出了一个规模达到10亿的图文交错数据集OmniCorpus，为未来的多模态模型研究提供数据基础。
关键思路

论文提出了一个高效的数据引擎，从多个来源提取高质量的文档，构建了一个包含86亿张图片和1696亿个文本标记的数据集。相比于现有的数据集，OmniCorpus规模更大、来源更丰富、更灵活。
其它亮点

论文采用了综合分析和实验验证的方法，验证了OmniCorpus的质量、可用性和有效性。此外，论文还开源了代码和数据，为未来的研究提供了便利。
相关研究

在这个领域中，最近的相关研究包括MMC4和OBELICS等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问