- 简介本文介绍了AIM,这是一组使用自回归目标进行预训练的视觉模型。这些模型受到它们的文本对应物——大型语言模型(LLMs)的启发,并展现出类似的可扩展性质。具体来说,我们强调两个关键发现:(1)视觉特征的性能随着模型容量和数据数量的增加而提高,(2)目标函数的价值与模型在下游任务上的性能相关。我们通过对20亿张图像进行7亿参数的AIM预训练,展示了这些发现的实际意义。在ImageNet-1k上,使用冻结的主干,AIM达到了84.0%的准确率。有趣的是,即使在这个规模下,我们也没有观察到性能饱和的迹象,这表明AIM可能代表了训练大规模视觉模型的新前沿。AIM的预训练类似于LLMs的预训练,并不需要任何特定于图像的策略来稳定大规模训练。
- 图表
- 解决问题本文旨在介绍AIM,一种使用自回归目标预训练的视觉模型集合。这些模型受到文本模型的启发,展现出类似的可扩展性特性。作者试图探究视觉特征的性能如何随着模型容量和数据量的扩大而提高,以及目标函数的价值如何与模型在下游任务上的性能相关。
- 关键思路本文提出的AIM模型通过自回归预训练,不需要任何图像特定的策略来稳定大规模训练。作者通过在2亿张图像上预训练一个70亿参数的AIM模型,证明了这种方法的有效性,该模型在ImageNet-1k上达到了84.0%的准确率,而且即使在这个规模下,模型的性能也没有出现饱和迹象。
- 其它亮点本文的亮点在于提出了一种新的视觉模型预训练方法,并证明了其可行性和有效性。作者使用了大规模的数据集和模型规模,并在多个下游任务上进行了评估。此外,作者还提供了开源代码和预训练模型,为后续研究提供了有价值的资源。
- 在最近的相关研究中,也有一些使用预训练的方法来提高视觉模型性能的工作,例如ViT、DeiT等。
沙发等你来抢
去评论
评论
沙发等你来抢