训练ViT和MAE减少一半计算量！Sea和北大联合提出高效优化器Adan，深度模型都能用

自Google提出Vision Transformer(ViT)以来，ViT渐渐成为许多视觉任务的默认backbone。凭借着ViT结构，许多视觉任务的SoTA都得到了进一步提升，包括图像分类、分割、检测、识别等。

然而，训练ViT并非易事。除了需要较复杂的训练技巧，模型训练的计算量往往也较之前的CNN大很多。近日，新加坡Sea AI LAB (SAIL) 和北大ZERO Lab的研究团队共同提出新的深度模型优化器Adan，该优化器可以仅用一半的计算量就能完成ViT的训练。

此外，在计算量一样的情况下， Adan在多个场景（涉及CV、NLP、RL）、多种训练方式（有监督与自监督）和多种网络结构/算法（Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO算法）上，均获得了性能提升。

内容中包含的图片若涉及版权问题，请及时与我们联系删除