标题:谷歌、哥大、康奈尔|VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text(VATT:用于原始视频,音频和文本多模式自监督变换器)

简介:我们提出了使用无卷积从未标记数据中学习多峰表示的框架变换器架构。具体来说,我们的视频音频文本转换器(VATT)将原始信号用作输入,提取足够丰富的多模式表示受益于各种下游任务。我们使用多峰对比损失从头到尾训练VATT并通过以下任务评估其性能视频动作识别,音频事件分类,图像分类和文本到视频的检索。此外,我们研究了与模式无关的单骨干变换器通过在三种方式之间共享权重。我们展示无卷积的VATT优于最新技术在下游任务中基于ConvNet的体系结构。特别是,VATT的视觉变换器在Kinetics-400上达到了82.1%的top-1精度,在Kinetics-600上达到了83.6%,和时间上的41.1%,同时避免了新的记录有监督的预训练。与ImageNet相比,转换为图像分类可提高78.7%的top-1准确性,通过从头开始训练同一台Transformer可以提高到64.7%,展示了我们模型的通用性,尽管视频和图像之间存在领域差距。 VATT的音频变换器也创下了基于波形的音频的新记录,通过在AudioSet上实现39.4%的mAP而无需任何监督的预训练,从而实现事件识别。

论文链接:https://arxiv.org/pdf/2104.11178.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除