标题:中科院|OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation(OPT:用于跨模式理解和的全方位感知生成预训练器)

简介:在本文中,我们通过联合建模视觉、文本和音频资源,提出了一种用于跨模式理解和生成的全感知预训练器。OPT 是在编码器-解码器框架中构建的,包括三个单模态编码器,用于为每种模态生成基于符号的嵌入,一个跨模态编码器,用于对三种模态之间的相关性进行编码,以及两个跨模态解码器,用于生成文本和图像分别。对于 OPT 的预训练,我们设计一种多任务借口学习方案来模拟多模态来自三种不同数据粒度的资源,即符号、模态和样本级建模,通过它 OPT学会在不同的模态之间对齐和转换。预训练任务是在大量来自Open Images的图像-文本-音频三元组。实验性的结果表明,OPT可以学习强大的图像-文本-音频多模态表示,在各种跨模态的理解和生成任务取得良好结果。

论文地址:https://arxiv.org/pdf/2107.00249v2.pdf