Explore the Limits of Omni-modal Pretraining at Scale

2024年06月13日
  • 简介
    我们提出了构建全模态智能的想法,该智能能够理解任何模态并学习通用表示。具体而言,我们提出了一种可扩展的预训练范例,称为多模态上下文(MiCo),它可以在预训练过程中扩大模态和数据量以及模型参数的数量。使用MiCo,预训练模型在多模态学习方面表现出显著的新能力,这些能力在以下任务中进行了评估:i) 10种不同模态的单模态感知基准测试,ii) 25个跨模态理解任务,包括检索、问答、字幕生成,以及iii) 18个多模态大型语言模型基准测试。我们的模型建立了37项最新性能记录。我们希望我们的研究能够为全模态智能的发展做出贡献。代码和模型可在https://github.com/invictus717/MiCo找到。
  • 图表
  • 解决问题
    本文旨在构建全模态智能,实现对任何模态的理解和学习通用表示。同时,通过提出可扩展的预训练范式MiCo,将预训练过程中的模态数和数据量以及模型参数进行扩展,以提高模型的性能。
  • 关键思路
    本文的关键思路是使用可扩展的预训练范式MiCo进行多模态学习,从而实现对多种模态的理解和通用表示的学习。相较于当前领域的研究,本文的思路具有创新性。
  • 其它亮点
    本文通过对10种单模态感知基准测试、25项跨模态理解任务和18项多模态大型语言模型基准测试的评估,证明了使用MiCo进行预训练的模型具有显著的多模态学习能力,并在37项任务中取得了最新的最优性能。此外,本文还提供了代码和模型。
  • 相关研究
    最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论