How to Benchmark Vision Foundation Models for Semantic Segmentation?

简介

最近的视觉基础模型（VFMs）已经展示出在各种任务上的熟练表现，但需要经过监督的微调才能有效地执行语义分割任务。对它们的性能进行基准测试对于选择当前的模型并指导未来的模型发展至关重要。缺乏标准化的基准测试使得比较变得复杂。因此，本文的主要目标是研究如何对VFMs进行语义分割基准测试。为此，在各种设置下对各种VFMs进行微调，并评估各个设置对性能排名和训练时间的影响。基于结果，建议使用16x16的补丁大小和线性解码器微调ViT-B变体的VFMs，因为这些设置代表了使用更大的模型、更先进的解码器和更小的补丁大小，同时将训练时间缩短了13倍以上。建议使用多个数据集进行训练和评估，因为在数据集和领域转移方面的性能排名是不同的。线性探测是一些VFMs的常见实践，但不建议使用，因为它不能代表端到端的微调。本文推荐的基准测试设置使得可以对VFMs的语义分割性能进行分析。这样的分析结果表明，使用可提示分割的预训练并不有益，而使用抽象表示的遮蔽图像建模（MIM）非常关键，甚至比所使用的监督类型更重要。可以通过项目页面访问有效微调VFMs进行语义分割的代码：https://tue-mps.github.io/benchmark-vfm-ss/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何对视觉基础模型进行语义分割的标准化基准测试？
关键思路

使用ViT-B变体的VFMs进行有监督微调，使用16x16补丁大小和线性解码器进行微调，同时使用多个数据集进行训练和评估。
其它亮点

论文建议使用ViT-B变体的VFMs进行有监督微调，使用16x16补丁大小和线性解码器进行微调，同时使用多个数据集进行训练和评估。实验结果表明，预先训练的提示分割并不有益，而使用抽象表示的遮蔽图像建模（MIM）非常重要，甚至比使用的监督类型更重要。推荐使用该论文中建议的基准测试设置来对VFMs进行性能分析。该论文还提供了用于高效微调VFMs以进行语义分割的代码。
相关研究

最近的相关研究包括：《End-to-End Object Detection with Transformers》、《Vision Transformers for Dense Prediction》、《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》等。

How to Benchmark Vision Foundation Models for Semantic Segmentation?

提问交流

提问交流