NEW

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Qingyun Li ,

Zhe Chen ,

Weiyun Wang ,

Wenhai Wang ,

Shenglong Ye ,

Zhenjiang Jin ,

Guanzhou Chen ,

Yinan He ,

Zhangwei Gao ,

Erfei Cui ,

Jiashuo Yu ,

Hao Tian ,

Jiasheng Zhou ,

Chao Xu ,

Bin Wang ,

Xingjian Wei ,

Wei Li ,

Wenjian Zhang ,

Bo Zhang ,

Pinlong Cai ,

Licheng Wen ,

Xiangchao Yan ,

Zhenxiang Li ,

Pei Chu ,

Yi Wang ,

Min Dou ,

Changyao Tian ,

Xizhou Zhu ,

Lewei Lu ,

Yushi Chen ,

Junjun He ,

Zhongying Tu ,

Tong Lu ,

Yali Wang ,

Limin Wang ,

Dahua Lin ,

Yu Qiao ,

Botian Shi ,

Conghui He ,

Jifeng Dai

热度 10

2024年06月12日

简介

本文介绍了一个名为OmniCorpus的数据集，它是一个包含多个图像和文本的自然文档格式的图文交替数据，符合互联网数据呈现范式，与人类阅读习惯十分相似。最近的研究表明，这种数据有助于多模态上下文学习，并在多模态微调期间保持大型语言模型的能力。然而，当前图文交替数据的规模和多样性有限，限制了多模态大型语言模型的发展。因此，作者使用高效的数据引擎，过滤和提取大规模高质量文档，创建了一个包含86亿张图像和1696亿个文本标记的10亿级别的图文交替数据集。与其他数据集相比（如MMC4、OBELICS），我们的数据集具有更大的规模（15倍）和更多样化的来源（包括英语和非英语网站以及以视频为中心的网站），并且更加灵活，易于从图文交替格式转换为纯文本语料库和图文对。通过全面的分析和实验，我们验证了所提出数据集的质量、可用性和有效性。希望这能为未来的多模态模型研究提供坚实的数据基础。代码和数据已在https://github.com/OpenGVLab/OmniCorpus上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文介绍了一个10亿规模的图文交错数据集OmniCorpus，旨在解决当前图文交错数据集规模和多样性有限的问题，为未来的多模态模型研究提供数据基础。
关键思路

论文提出了一个高效的数据引擎，从多样化的来源中过滤和提取大规模高质量的文档，包含86亿张图片和1696亿个文本标记。相比现有的图文交错数据集，OmniCorpus规模大15倍，来源更加多样化，且更加灵活。
其它亮点

论文通过实验验证了OmniCorpus数据集的质量、可用性和有效性，并开源了代码和数据。值得关注的是，OmniCorpus数据集的来源包含英语和非英语网站以及以视频为中心的网站。
相关研究

在这个领域中，最近的相关研究包括MMC4和OBELICS等图文交错数据集的构建，以及多模态模型的研究，如CLIP和ViLBERT等模型。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问