基于 Transformer 的大规模多模态训练促成了不同领域最新技术的改进,包括视觉、语言和音频。特别是在计算机视觉和图像语言理解方面,单个预训练大模型可以优于特定任务的专家模型。

大型多模态模型通常使用模态或特定于数据集的编码器和解码器,并相应地导致涉及的协议。例如,此类模型通常涉及在各自的数据集上对模型的不同部分进行不同阶段的训练,并进行特定于数据集的预处理,或以特定于任务的方式迁移不同部分。这种模式和特定于任务的组件可能会导致额外的工程复杂性,并在引入新的预训练损失或下游任务时面临挑战。

开发一个可以处理任何模态或模态组合的单一端到端模型,将是多模态学习的重要一步。本文中,来自谷歌研究院(谷歌大脑团队)、苏黎世的研究者将主要关注图像和文本。

 

论文地址:https://arxiv.org/pdf/2212.08045.pdf

CLIPPO 是一种统一的模型,用单个编码器和对比损失来执行图像、文本和多模态任务,优于传统的 NLP 基线和之前基于像素的掩码语言模型。

许多关键统一加速了多模式学习的进程。首先经证实,Transformer 架构可以作为通用主干,并且在文本、视觉、音频和其他领域上表现良好。其次,许多论文探索了将不同的模态映射到单个共享嵌入空间以简化输入 / 输出接口,或开发一个用于多个任务的单一接口。第三,模态的替代表示允许在一个领域中利用另一个领域设计的神经架构或训练程序。例如,[54] 和 [26,48] 分别表示文本和音频,通过将这些形式呈现为图像(在音频的情况下为频谱图)进行处理。

本文将对使用纯基于像素的模型进行文本和图像的多模态学习进行探索。该模型是一个单独的视觉 Transformer,它处理视觉输入或文本,或两者一起,所有都呈现为 RGB 图像。所有模态都使用相同的模型参数,包括低级特征处理;也就是说,不存在特定于模态的初始卷积、tokenization 算法或输入嵌入表。该模型仅用一个任务训练:对比学习,正如 CLIP 和 ALIGN 所推广的那样。因此模型被称作 CLIP-Pixels Only(CLIPPO)。 

CLIP 已经成为一种强大的、可扩展的范式,用于在数据集上训练多用途视觉模型。具体来说,这种方法依赖于图像 /alt-text 对,这些可以从网络上大规模自动收集。因此,文本描述通常是有噪音的,并且可能由单个关键字、关键字集或潜在的冗长描述组成。利用这些数据,联合训练两个编码器,即嵌入 alt-text 的文本编码器和将相应图像嵌入共享潜在空间的图像编码器。这两个编码器使用对比损失进行训练,鼓励相应图像和 alt-text 的嵌入相似,同时与所有其他图像和 alt-text 的嵌入不同。