Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor Control

简介

Vision Transformers（ViT）与大规模预训练相结合，在各种计算机视觉任务中表现出色，主要是由于它们的弱归纳偏见。然而，虽然这种弱归纳偏见有助于预训练的可扩展性，但由于缺乏以控制为中心的归纳偏见，这可能会妨碍ViTs在视觉运动控制任务中的有效适应。这种缺失的归纳偏见包括卷积自然提供的空间局部性和平移等变性偏见。为此，我们引入了卷积注入器（CoIn），这是一个附加模块，可以将富含局部性和等变性偏见的卷积注入预训练的ViT中，以便在视觉运动控制中进行有效适应。我们在三个不同领域（Adroit、MetaWorld、DMC）的12个不同控制任务中，使用三种不同类型的预训练ViTs（CLIP、MVP、VC-1）评估了CoIn，并证明CoIn在所有实验环境和模型中均能显著提高控制任务的性能，验证了为预训练ViTs提供以控制为中心的偏见的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决在视觉运动控制任务中，Vision Transformers (ViT) 由于缺乏控制中心的归纳偏差而无法有效适应的问题。
关键思路

本文提出了一个名为 Convolution Injector (CoIn) 的附加模块，将具有局部性和等变性偏差的卷积注入预训练的 ViT 中，以提高其在视觉运动控制任务中的适应性。
其它亮点

本文使用三种不同类型的预训练 ViT（CLIP、MVP、VC-1）在三个不同领域（Adroit、MetaWorld、DMC）的12个不同控制任务中评估了 CoIn，并表明 CoIn 可以提高所有实验环境和模型的控制任务性能。本文的实验设计合理，使用了多个数据集，并提供了开源代码。
相关研究

最近的相关研究包括《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《Going Deeper with Image Transformers》等。

Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor Control

提问交流

提问交流