单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

Transformers 是一个灵活的神经端到端模型族（family），最开始是为自然语言处理任务设计的。近来，Transformers 已经在图像分类、视频和音频等一系列感知任务上得到应用。虽然近来在不同领域和任务上取得了进展，但当前 SOTA 方法只能为手头的每个任务训练具有不同参数的单一模型。

近日，谷歌研究院、剑桥大学和阿兰 · 图灵研究所的几位研究者在其论文《 PolyViT: Co-training Vision Transformers on Images, Videos and Audio 》提出了一种简单高效的训练单个统一模型的方法，他们将该模型命名为 PolyViT，它实现了有竞争力或 SOTA 的图像、视频和音频分类结果。

在设计上，研究者不仅为不同的模态使用一个通用架构，还在不同的任务和模态中共享模型参数，从而实现了潜在协同作用。从技术上来讲，他们的方法受到了「transformer 是能够在任何可以 tokenized 的模态上运行的通用架构」这一事实的启发；从直觉上来讲，是由于人类感知在本质上是多模态的，并由单个大脑执行。

论文地址：https://arxiv.org/abs/2111.12993

图 1 为 PolyViT 的结构概览

内容中包含的图片若涉及版权问题，请及时与我们联系删除

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

评论列表

评论