MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

Anas Awadalla ,
Le Xue ,
Oscar Lo ,
Manli Shu ,
Hannah Lee ,
Etash Kumar Guha ,
Matt Jordan ,
Sheng Shen ,
Mohamed Awadalla ,
Silvio Savarese ,
Caiming Xiong ,
Ran Xu ,
Yejin Choi ,
Ludwig Schmidt
678
热度
2024年06月17日
  • 简介
    多模态交错数据集,包括自由交错的图像和文本序列,对于训练前沿的大型多模态模型至关重要。尽管开源多模态模型的发展迅速,但大规模、多样化的开源多模态交错数据集仍然非常稀缺。为此,我们介绍了迄今为止最广泛和多样化的开源多模态交错数据集MINT-1T。MINT-1T包括一万亿个文本标记和30亿张图像,是现有开源数据集的10倍规模。此外,我们还包括了以前未被利用的来源,如PDF和ArXiv论文。由于扩展多模态交错数据集需要大量的工程努力,因此共享数据策划过程并发布数据集对社区大有裨益。我们的实验表明,在MINT-1T上训练的LMMs可以与在之前领先的数据集OBELICS上训练的模型相媲美。我们的数据和代码将在https://github.com/mlfoundations/MINT-1T上发布。
  • 图表
  • 解决问题
    介绍了MINT-1T数据集,旨在解决大规模多模态数据集的稀缺性问题,为训练先进的大型多模态模型提供更多数据
  • 关键思路
    MINT-1T是目前最大和最多样化的开源多模态交错数据集,包含10倍于现有开源数据集的数据量,同时包括PDF和ArXiv等以前未开发的数据源
  • 其它亮点
    实验证明,使用MINT-1T训练的LMMs与使用先前领先数据集OBELICS训练的模型性能相当。作者分享了数据筛选过程并发布了数据和代码,有助于促进社区的发展
  • 相关研究
    此前的OBELICS数据集是该领域的前沿,同时还有其他一些相关研究,如:《Image-Text Datasets with Efficient Data Augmentation for Training Multimodal Retrieval Models》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论