- 简介本文介绍了OmniCorpus,一个包含10亿规模的图文交错数据集。这个数据集由多个自然文档格式的图片和文本组成,符合互联网数据的呈现范式,与人类的阅读习惯非常相似。最近的研究表明,这种数据有助于多模态上下文学习,并在多模态微调期间保持大型语言模型的能力。然而,目前图文交错数据的规模和多样性有限,限制了多模态大型语言模型的发展。本文介绍了一个高效的数据引擎,用于过滤和提取大规模高质量文档,其中包含86亿张图片和1696亿个文本标记。与对手(例如MMC4、OBELICS)相比,我们的数据集1)规模大15倍,同时保持良好的数据质量;2)具有更多样化的来源,包括英语和非英语网站以及以视频为中心的网站;3)更加灵活,易于从图文交错格式降级为纯文本语料库和图文对。通过全面的分析和实验,我们验证了所提出数据集的质量、可用性和有效性。我们希望这可以为未来的多模态模型研究提供坚实的数据基础。代码和数据已在https://github.com/OpenGVLab/OmniCorpus发布。
-
- 图表
- 解决问题本论文旨在解决当前图文交错数据规模和多样性不足的问题,提出了一个规模达到10亿的图文交错数据集OmniCorpus,为未来的多模态模型研究提供数据基础。
- 关键思路论文提出了一个高效的数据引擎,从多个来源提取高质量的文档,构建了一个包含86亿张图片和1696亿个文本标记的数据集。相比于现有的数据集,OmniCorpus规模更大、来源更丰富、更灵活。
- 其它亮点论文采用了综合分析和实验验证的方法,验证了OmniCorpus的质量、可用性和有效性。此外,论文还开源了代码和数据,为未来的研究提供了便利。
- 在这个领域中,最近的相关研究包括MMC4和OBELICS等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流