- 简介本文深入探讨了视觉骨干网络和优化器之间的相互作用,揭示了一种相互依存的现象,称为“骨干-优化器耦合偏差”(BOCB)。我们观察到,像VGG和ResNet这样的经典CNN与SGD系列存在明显的相互依赖关系,而像ViTs和ConvNeXt这样的最新架构则与自适应学习率的优化器存在紧密的耦合。我们进一步表明,BOCB可以由优化器和某些骨干设计引入,并且可能显着影响视觉模型的预训练和下游微调。通过深入的实证分析,我们总结了推荐优化器的要点和对鲁棒视觉骨干架构的见解。我们希望这项工作能激发社区对骨干和优化器的长期假设进行质疑,促进进一步探索,从而为更加鲁棒的视觉系统做出贡献。源代码和模型可在https://bocb-ai.github.io/上公开获取。
-
- 图表
- 解决问题本文旨在探讨视觉骨干网络和优化器之间的相互作用,揭示了一种相互依赖的现象,称为骨干-优化器耦合偏差(BOCB)。作者观察到传统的CNN(如VGG和ResNet)与SGD系列优化器存在明显的相互依赖关系,而最近的架构(如ViTs和ConvNeXt)则与自适应学习率优化器存在紧密耦合。作者进一步表明,BOCB可以由优化器和某些骨干设计引入,并且可能显着影响视觉模型的预训练和下游微调。
- 关键思路本文的关键思路是揭示BOCB现象,并通过深入的实证分析总结出推荐的优化器和鲁棒视觉骨干架构。此外,作者的研究也启发了学术界对于骨干和优化器的长期假设进行质疑和探索。
- 其它亮点本文的亮点包括:1.揭示BOCB现象;2.总结出推荐的优化器和鲁棒视觉骨干架构;3.通过实验设计验证了BOCB对于预训练和微调的影响;4.开源了源代码和模型。本文值得进一步深入研究的工作包括探索BOCB现象的机理以及如何将BOCB应用于其他领域。
- 在这个领域中,最近的相关研究包括《Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units》、《Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift》、《On the Convergence and Robustness of Adversarial Training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流