Meta AI：多模态理解研究进展与未来

本文作者为Meta AI的：Laurens van der Maaten（Research Director）、Ishan Misra（Research Scientist）、Rohit Girdhar（Research Scientist）、Amanpreet Singh（Software Engineer）、Armen Aghajanyan（Research Scientist）、Alexei Baevski（Research Engineer）

为了让人工智能成为一个更有用的工具，它必须学会如何更全面地准确解释内容。这意味着同时在多种模式（如文本、语音和图像）下工作。例如，识别一个备忘录是否具有仇恨性需要同时考虑备忘录的图像和文本内容。同样地，构建元空间将需要将多模态模型与增强型和虚拟现实设备整合起来，以便它们能够识别例如警报器的声音，并显示警报，显示声音来自哪个方向。

历史上，将这些不同格式的数据放在一起分析--文本、图像、语音波形和视频，每一种都有不同的架构--对机器来说是极大的挑战。

在过去的几年里，Meta AI产生了一系列的研究项目，每个项目都解决了多模态感知的重要挑战--从解决用于训练的公开数据的短缺（Hateful Memes），到为视觉、语音和文本创建单一算法（Data2vec），到建立适用于许多任务的基础模型（FLAVA），到寻找正确的模型参数（Omnivore），以及其他许多项目。总的来说，它们代表了一个明显的趋势。在不久的将来，多模态理解将是更智能的人工智能系统的关键。

今天，我们将分享Meta AI最近的前沿多模态研究的综述，我们相信这些研究将共同导致更多的互动、沉浸和更智能的AI系统。

Omnivore：图像、视频和三维数据的单一模型

我们新的Omnivore模型可以使用相同的参数对图像、视频和三维数据进行操作，而不会降低特定模式任务的性能。例如，它可以识别南瓜的三维模型或游艇的视频，尽管在训练时它只观察到南瓜和游艇的图像。这实现了根本性的新能力，例如人工智能系统可以在图像和视频中搜索和检测内容。Omnivore在所有三种模式的流行识别任务中都取得了最先进的结果，在视频识别方面的表现尤为突出。

FLAVA：一个横跨数十个多模态任务的基础模型

FLAVA代表了一类新的 "基础模型"，它经过联合训练，可以完成超过35个领域的任务，包括图像识别、文本识别和文本-图像联合任务。例如，FLAVA模型可以单枪匹马地描述图像的内容，推理其文本的必然性，并回答关于图像的问题。FLAVA还能在一系列任务中实现令人印象深刻的零距离文本和图像理解能力，如图像分类、图像检索和文本检索。

FLAVA不仅改进了通常只擅长一项任务的先前工作，而且与先前的工作不同，它还使用了在公开的公共配对上预训练的共享干线--我们希望这将有助于进一步推动研究。

CM3: 通用于新的多模态任务

CM3是目前最通用的开源多模态模型之一。通过对结构化多模态文件的大型语料库进行训练，它可以生成全新的图像和这些图像的标题。在我们的设置中，它也可以用来填充完整的图像或更大的结构化文本部分，以文档的其余部分为条件。使用以类似HTML的语法生成的提示，完全相同的CM3模型可以生成新的图像或文本，为图像加上标题，并对文本中的实体进行区分。

传统的预训练方法侧重于将架构选择（如编码器-解码器）与客观选择（如掩码）混合起来。我们新颖的 "因果掩蔽客观 "的方法通过引入因果和掩蔽语言模型的混合体，获得了两个世界的最佳效果。请在此阅读该论文。

Data2vec: 第一个实现语音、视觉和文本的SOTA的自监督模型

今天，自我监督学习的研究几乎总是集中在一个特定的模式上。在我们最近的突破性研究data2vec中，我们表明完全相同的模型架构和自监督训练程序可以用来开发最先进的模型来识别图像、语音和文本。下面的插图显示了data2vec是如何用于图像的，但同样的程序也可以用于训练语音或自然语言的模型。Data2vec表明，同样的自监督算法可以在不同的模式中很好地工作--而且它往往比现有的最佳算法更出色。在此阅读更多关于Data2vec的信息。

多模态理解的下一步是什么？

我们的data2vec模型目前是为每种不同的模式单独训练的。但我们从Omnivore、FLAVA和CM3中得到的结果表明，在未来，我们也许能够训练一个单一的人工智能模型，解决所有模式的挑战性任务。这样一个多模态模型将释放出许多新的机会。例如，它将进一步提高我们全面理解社交媒体帖子内容的能力，以识别仇恨言论或其他有害内容。它还可以帮助我们建立对周围世界有更全面理解的AR眼镜，在元空间中开启令人兴奋的新应用。

随着人们对多模态的兴趣越来越浓厚，我们希望研究人员能够有很好的工具来快速建立和实验大规模的多模态、多任务模型。我们正在开源TorchMultimodal--一个多模态基元库（模型、融合层、损失函数、数据集和实用程序）和一个实例库，汇集了整个PyTorch生态系统的组件和通用基础设施。作为第一个开源实例，研究人员将能够使用这个新库来训练和扩展FLAVA。请关注更多相关细节。

作为我们对开放科学的持续承诺的一部分，我们很高兴能分享我们最新的研究成果，并期待着与更广泛的人工智能社区一起建立多模态人工智能的未来。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Meta AI：多模态理解研究进展与未来

评论列表

评论