多模态模型的发展趋势：迄今为止最先进的模型，跨模态 GAN，多模态 Transformer

转自知乎：唐工

不仅是多模态Transformer 模型，多模态（multi-modal）是所有模型的发展趋势。

多模态模型是迄今为止最先进的，因为它们可以接受多种不同的输入方式(例如语言、图像、语音、视频) ，并且在某些情况下产生不同的输出模态。

这是一个令人兴奋的方向，因为就像现实世界一样，有些事情在多模态数据中更容易学习(例如，阅读某些东西并观看演示，比仅仅阅读它更有用)。

例如，从描述性的句子或段落生成图像（XMC-GAN 模型），或用人类语言描述图像的视觉内容（SimVLM 模型）。

因此，图像和文本的配对可以帮助多语种检索任务（MURAL 模型），更好地理解如何配对文本和图像输入（CxC）可以为图像字幕任务产出更好的结果。

同样，对视觉和文本数据的协同训练，也有助于提高视觉分类任务的准确性（ALIGN 模型）和鲁棒性，而对图像、视频和音频任务的协同训练则提高了所有模态的泛化性能（PolyVit 模型）。

还有一些诱人的线索表明，自然语言可以用作图像操作的输入（TIM-GAN 模型），告诉机器人如何与世界互动（BC-Z 模型），控制其他软件系统，预示着用户界面开发方式的潜在变化。

这些模型处理的模态将包括语音、声音、图像、视频和语言，甚至可能扩展到结构化数据（TAPAS 模型）、知识图谱（KELM 模型）和时间序列数据（TFT 模型）。

XMC-GAN 模型：跨模态 GAN

XMC-GAN （Cross-Modal Contrastive Generative Adversarial Network）模型，旨在解决生成对抗性网络（GAN）在图像合成领域的两类问题：

难以处理长而模糊的描述；
易出现模式崩溃的问题。

XMC-GAN 模型，通过学习使图像和文本之间的互信息最大化，利用图像-文本和图像-图像之间的对比丢失（contrastive loss）来实现文本到图像的生成。这种方法有助于鉴别器（discriminator，试图判断图像是真实还是虚构的）学习更健壮和鉴别特征，因此 XMC-GAN 是不容易模式崩溃，即使一段式（one-stage）的训练。

SimVLM 模型：简单可视化语言模型

SimVLM （Simple Visual Language Model）模型，旨在解决现有的视觉语言预训练(Viusal Language Pretraining，VLP)的导致可伸缩性较差的两类问题：

需要带注释的数据集；
需要时间来设计特定于任务的方法。

SimVLM 模型提出了一个简单而有效的 VLP，使用与语言建模类似的统一目标，对大量弱对齐的图像-文本对进行端到端的训练(即，与图像配对的文本不一定是对图像的精确描述)。

SimVLM 模型架构概述。SimVLM 模型采用序列到序列框架，并使用一个前缀语言模型(PrefixLM)目标进行训练，该目标接收序列(前缀)的先导部分作为输入，然后预测其后续。前缀的概念同样适用于图像，即将一幅图像分成若干“块”，然后这些块的一个子集按顺序作为输入提供给模型。

MURAL 模型：跨语言的多模态、多任务检索

MURAL （MUltimodal, MUltitask Representations Across Languages）模型，旨在解决图像-文本数据不匹配或数据不足的两类问题：

大多数语言中图像-文本对的数据的相距尺度甚大；
手工收集资源不足的语言的图文配对数据难度大。

MURAL 模型提出了一种图像-文本匹配的表示模型，该模型将多任务学习应用于图像-文本对，并结合涵盖100多种语言的翻译对。这项技术可以让用户使用图像来表达可能无法直接翻译成目标语言的单词。

MURAL 模型基于 ALIGN 的结构，但是以多任务的方式被使用。ALIGN 使用双编码器结构来绘制图像的表示和相关的文本描述，而 MURAL 则使用双编码器结构来达到同样的目的，同时通过结合翻译对将其扩展到多种语言。

MURAL 模型的架构描述了双重编码器与一个共享的文本编码器之间的两个任务使用对比学习损失训练

CxC 模型：图像和文本的语义相似性

CxC（Crisscrossed Captions）模型，旨在解决现有数据集由于跨模态关联局限性而导致的的问题：

图像不与其他图像配对，标题只与同一图像的其他标题配对，没有负面关联，也缺少正面的跨模态关联。
这就破坏了对于互通（inter-modality）模式学习(例如，将字幕与图像连接起来)如何影响内通（intra-modality）模式任务(将字幕与字幕或图像与图像连接起来)的研究。

CxC（Crisscrossed Captions）模型对图像-文本、文本-文本和图像-图像对进行了语义相似性评级。评分标准是基于语义文本相似度（Semantic Textual Similarity），一个现在广泛采用的衡量短文本之间的语义关系，被扩展到包括对图像的判别。

CxC 扩展了 MS-COCO 评估集，为现有的图片字幕对和联合字幕(实线)增加了人为的语义相似度评级，并且通过为新的图片字幕、字幕和图片图像对(虚线)增加人为评级来增加评级密度

ALIGN 模型：在噪声文本监督下扩展视觉和视觉语言表征学习

ALIGN （A Large-scale ImaGe and Noisy-Text Embedding）模型，旨在解决当前视觉和视觉语言 SOTA 模型严重依赖于特定训练数据集的问题，这些训练数据集需要专家知识和广泛标签。

ALIGN 模型建议利用公开的图像替代文本数据来训练更大、SOTA 的视觉和视觉-语言模型，并采用了一个简单的双编码器结构，学习对齐图像和文本对的视觉和语言表示。

图像和文本编码器的学习是通过对比丢失(contrastive loss) ，推动匹配的图像-文本对的嵌入在一起，同时推动那些非匹配的图像-文本对(在同一批)分开。学习表征可以用于下游的视觉和视觉语言任务。

PolyVit 模型：图像、视频和音频的协同训练 ViT

PolyVit 模型，旨在训练一个能够处理多个模态和数据集的单 Transformer 模型，同时共享几乎所有可学习的参数。

PolyViT 模型，是一个在图像、音频和视频上训练的模型。在多个模态和任务上协同训练 PolyViT 可以生成一个参数效率更高的模型，并学习跨多个域泛化的表示形式。

PolyViT 模型能够执行跨越不同模态的多个任务，并且一次处理一个任务。该架构由所有任务共享的 Transformer 编码器、特定于模态的输入 Tokenizer 和特定于任务的输出 Head 组成。

此外，协同训练的实现既简单又实用，因为不需要为每个数据集组合调整超参数，而是可以简单地从标准的单任务训练中调整这些超参数。

TIM-GAN 模型：通过文本指令操作图像

TIM-GAN（Text-Instructed Manipulation GAN）模型，关注文本引导的图像处理，将条件图像生成的输入从仅图像演变到多模态。

TIM-GAN 模型，提出了一种基于 GAN 的方法，允许用户使用复杂的文本指令来编辑具有多个对象的图像，以添加、删除或更改对象。

给定输入图像和文本指令，TIM-GAN 首先预测空间注意掩码和文本运算符 how。然后，图像特征由文本运算符 where在预测掩码上进行修改。最后，从操作后的图像特征 ˆ 合成编辑后的图像 ˆ 。

关键思想是将文本视为神经算子（neural operator）来局部修改图像特征。

BC-Z 模型：基于机器人模仿学习的零样本任务泛化

BC-Z 模型，从模仿学习（imitation learning）的角度来探讨，旨在研究基于视觉的机器人操作系统，如何缩放和拓宽收集到的数据以提升泛化到新任务的能力。

左图:这个机器人没有对模型进行特定任务的训练，正在执行一个用自然语言描述的任务，称之为“把葡萄放在陶瓷碗里”。右图:如左图一样，只是用新任务描述为“将瓶子放在托盘中”。

BC-Z 模型，是一个互动式和灵活的模仿学习系统，可以从演示和干预中学习，并且可以以传达的任务的不同形式的信息为条件，包括预训练的自然语言嵌入或执行任务的人类视频。

BC-Z 模型收集了一个包含 100 个不同操作任务的大规模数据集（25,877 份），并训练了一个以任务语言字符串或人类视频为条件的 7-DoF（自由度）多任务策略。该系统产生的策略能够将零样本泛化到新的未曾见的任务。

BC-Z 的网络架构。来自头戴式摄像机的单目 RGB 图像通过 ResNet18 编码器，然后通过两层 MLP 来预测每个动作模态（delta XYZ、delta 轴角和夹角）。 FiLM 层根据从语言或视频计算的任务嵌入 z 来调节架构。

TAPAS 模型：从更少的数据中学习推理结构化数据

TAPAS （Tabel Parsing）模型，旨在将自然语言推理的模型应用于结构化数据，将表格中的内容精确地总结和呈现给用户。

TAPAS 模型是 BERT 双向 Transformer 模型的扩展，将语句和表格的内容编码在一起，通过一个 Transformer 模型传递它们，并通过表格获得一个有可能推导或反驳该语句的概率数值。

TAPAS 架构使用 BERT 模型对语句和扁平化表格进行编码，逐行读取。特殊的嵌入用于编码表结构。第一个标记的向量输出用于预测推演概率（probability of entailment）

KELM 模型：使用语言模型预训练语料库集成知识图谱

KELM （Knowledge-Enhanced Language Model）模型，旨在解决知识图谱（knowledge graphs）这一事实性的结构化数据的结构形式不同，而使得他们很难与现有的语言模型中语料库集成。

KELM 模型，将知识图谱转换为合成的自然语言语句，以增强现有的预训练语料库，使其能够在不改变结构的情况下融入语言模型的预训练。

KELM 模型基于检索的语言模型（REALM），并利用合成语料库将自然语言语料库和知识图谱集成到预训练中。

TFT 模型：时间序列预测的可解释性深度学习

TFT （Temporal Fusion Transformer）模型，旨在解决传统的时间序列模型的两类缺点：

基于 Transformer 的模型已经使用基于注意力的层来增强相关时间步长（time step）的选择，超越了循环神经网络（RNN）的归纳偏置（inductive bias）。但是，这些模型没有考虑多时段（multi-horizon）预测中常见的不同输入，或者假定所有的外源输入（exogenous inputs）在未来都是已知的，或者忽略重要的静态协变量（static covariates）。
传统的时间序列模型是由许多参数之间复杂的非线性相互作用来控制的，这使得很难解释这些模型是如何预测的。

TFT 模型，是一个基于注意力的 DNN 模型的 Transformer 模型，有效地为每个输入类型(即，静态、已知或观测输入)建立特征表示，显式地将模型与一般的多时段预测任务对齐，以获得更高的准确性和可解释性。

TFT 输入静态元数据、时变的过去输入和时变的先验已知未来输入。变量选择（Variable Selection）用于根据输入明智地选择最显著的特征。添加门控信息作为残差输入，然后进行归一化。门控残差网络 (Gated residual network，GRN) 块通过跳过连接和门控层实现高效的信息流。时间相关处理基于用于本地处理的 LSTM，以及用于集成来自任意时间步长的信息的多头注意力。