- 简介大规模的视觉基础模型(如 DINOv2)通过利用庞大的模型结构和训练数据集展现出令人印象深刻的性能。但在许多场景中,研究者需要在私有数据、新的模态或仅仅是出于科学探究的目的下复现这些预训练方法——而目前这种方式在计算上极其耗费资源。因此,我们提出了一种全新的 DINOv2 预训练策略,该策略不仅加快了模型的收敛速度,还意外地增强了模型对常见数据损坏的鲁棒性。我们的方法包括一种频率过滤的课程学习方式(优先学习低频信息)以及高斯噪声补丁增强技术。在基于 ImageNet-1K 数据集训练 ViT-B/16 主干网络的实验中,我们的方法在将预训练时间和浮点运算量分别减少了 1.6 倍和 2.25 倍的同时,仍然在图像损坏基准测试(ImageNet-C)中实现了与基线方法相当的鲁棒性,并保持了具有竞争力的线性探针性能。这种效率与鲁棒性的双重优势,使得大规模自监督基础模型的构建更加可行,同时也为通过数据课程设计和增强手段来提升自监督学习模型鲁棒性的新方向打开了探索之门。代码已公开在 https://github.com/KevinZ0217/fast_dinov2。
- 图表
- 解决问题论文旨在解决大规模视觉基础模型(如DINOv2)在预训练过程中计算资源消耗巨大的问题,同时提升模型对常见数据损坏的鲁棒性。该问题在当前研究中具有现实意义,特别是在需要在私有数据、新模态或科研场景下复现预训练方案的情况下。
- 关键思路提出了一种新颖的预训练策略,包括频率过滤课程学习(先学习低频信息)和高斯噪声补丁增强方法。这一思路通过优化训练过程,加速了收敛速度,并意外提升了模型的鲁棒性,相比现有方法更具效率与稳定性优势。
- 其它亮点{在ImageNet-1K上应用ViT-B/16结构时,预训练时间和FLOPs分别减少了1.6倍和2.25倍,在不损失性能的前提下保持了与基线相当的ImageNet-C鲁棒性和线性探针表现,引入了基于数据课程和增强策略提升自监督学习鲁棒性的新视角,代码已开源,便于后续研究与实际应用}
- {"DINO: Emerging Properties in Self-Supervised Vision Transformers","MoCo V3: Improving Self-Supervised Vision Transformer Training with Dynamic Masking","BEiT: BERT Pre-Training of Image Transformers","SimCLR: A Simple Framework for Contrastive Learning of Visual Representations","BYOL: Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning"}
沙发等你来抢
去评论
评论
沙发等你来抢