MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

简介

多模态交错数据集，包括自由交错的图像和文本序列，对于训练前沿的大型多模态模型至关重要。尽管开源多模态模型的发展迅速，但大规模、多样化的开源多模态交错数据集仍然非常稀缺。为此，我们介绍了迄今为止最广泛和多样化的开源多模态交错数据集MINT-1T。MINT-1T包括一万亿个文本标记和30亿张图像，是现有开源数据集的10倍规模。此外，我们还包括了以前未被利用的来源，如PDF和ArXiv论文。由于扩展多模态交错数据集需要大量的工程努力，因此共享数据策划过程并发布数据集对社区大有裨益。我们的实验表明，在MINT-1T上训练的LMMs可以与在之前领先的数据集OBELICS上训练的模型相媲美。我们的数据和代码将在https://github.com/mlfoundations/MINT-1T上发布。
图表
解决问题

介绍了MINT-1T数据集，旨在解决大规模多模态数据集的稀缺性问题，为训练先进的大型多模态模型提供更多数据
关键思路

MINT-1T是目前最大和最多样化的开源多模态交错数据集，包含10倍于现有开源数据集的数据量，同时包括PDF和ArXiv等以前未开发的数据源
其它亮点

实验证明，使用MINT-1T训练的LMMs与使用先前领先数据集OBELICS训练的模型性能相当。作者分享了数据筛选过程并发布了数据和代码，有助于促进社区的发展
相关研究

此前的OBELICS数据集是该领域的前沿，同时还有其他一些相关研究，如：《Image-Text Datasets with Efficient Data Augmentation for Training Multimodal Retrieval Models》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

评论