GLID: Pre-training a Generalist Encoder-Decoder Vision Model

简介

本文提出了一种名为GLID的通用编码器-解码器预训练方法，以更好地处理各种下游计算机视觉任务。虽然自监督预训练方法（例如Masked Autoencoder）在迁移学习方面取得了成功，但不同下游任务仍需要附加特定于任务的子体系结构，这些子体系结构无法享受大规模预训练的好处。GLID通过允许预训练通用编码器-解码器在最小程度的任务特定体系结构修改下进行各种视觉任务的微调来克服这个挑战。在GLID训练方案中，预训练的前提任务和其他下游任务被建模为“查询到答案”的问题，包括预训练的前提任务和其他下游任务。我们使用查询掩码对进行了一个与任务无关的编码器-解码器的预训练。在微调过程中，GLID保持预训练的编码器-解码器和查询，仅用任务特定的线性头替换顶部的线性转换层。这最小化了预训练-微调体系结构的不一致性，并使预训练模型能够更好地适应下游任务。GLID在各种视觉任务中取得了竞争性的表现，包括目标检测、图像分割、姿态估计和深度估计，优于或与专业模型（如Mask2Former、DETR、ViTPose和BinsFormer）相匹配。
图表
解决问题

GLID试图解决如何更好地处理各种下游计算机视觉任务的问题。当前的自监督预训练方法需要为不同的下游任务附加任务特定的子架构，而GLID通过允许预训练的通用编码器-解码器在最小限度修改任务特定架构的情况下进行微调，从而克服了这一挑战。
关键思路

GLID的关键思想是使用查询-答案问题对预训练的通用编码器-解码器进行预训练，并在微调期间仅替换顶部线性转换层以进行任务特定的线性头。
其它亮点

GLID在各种视觉任务上取得了竞争性的性能，包括目标检测、图像分割、姿态估计和深度估计。它超越或匹配了专家模型，如Mask2Former、DETR、ViTPose和BinsFormer。论文使用了大量的数据集和实验来支持他们的方法，并且已经开源了他们的代码。
相关研究

在这个领域的相关研究包括Masked Autoencoder、DETR、ViTPose和BinsFormer等。

GLID: Pre-training a Generalist Encoder-Decoder Vision Model

评论