AM-RADIO: Agglomerative Model -- Reduce All Domains Into One

简介

最近出现了一些视觉基础模型（VFMs），它们成为了许多下游任务的支柱。像CLIP、DINOv2、SAM这样的VFM是通过不同的目标训练的，展现了不同的特点，适用于各种下游任务。我们发现，尽管它们在概念上存在差异，但这些模型可以通过多教师蒸馏有效地融合成一个统一的模型。我们将这种方法命名为AM-RADIO（聚合模型 - 将所有领域缩减为一个）。这种综合方法不仅超越了单个教师模型的性能，还融合了它们的独特特征，例如零-shot视觉语言理解、详细的像素级理解和开放词汇分割能力。为了追求最高效的硬件支撑，我们使用相同的训练配方在多教师蒸馏管道中评估了许多架构。这导致了一种新颖的架构（E-RADIO）的开发，它超越了其前身的性能，并且至少比教师模型快7倍。我们的全面基准测试过程涵盖了ImageNet分类、ADE20k语义分割、COCO目标检测和LLaVa-1.5框架。代码：https://github.com/NVlabs/RADIO
图表
解决问题

论文旨在解决如何将不同目标的视觉基础模型有效地合并成一个统一模型，以提高性能和硬件效率。
关键思路

通过多教师蒸馏，将不同目标的视觉基础模型合并成一个统一模型，提高性能和硬件效率。此外，研究还开发了一种新型架构（E-RADIO），比之前的模型性能更好且至少快7倍。
其它亮点

研究使用了多种数据集进行全面的基准测试，包括ImageNet分类、ADE20k语义分割、COCO对象检测和LLaVa-1.5框架。研究还开源了代码。此外，合并模型后，模型不仅超越了单个教师模型的性能，还结合了它们各自的特点，如零-shot视觉-语言理解、像素级细节理解和开放词汇分割能力。
相关研究

最近在这个领域中，也有一些研究关注于如何提高视觉基础模型的性能和硬件效率。例如，EfficientNet、ResNeSt等模型的研究。

AM-RADIO: Agglomerative Model -- Reduce All Domains Into One

评论