- 简介最近视觉语言模型(VLMs)的突破开启了视觉社区的新篇章。由于在大规模互联网图像-文本对上进行训练,VLMs提供了比ImageNet预训练模型更强大和更具可推广性的特征嵌入。然而,尽管VLMs取得了惊人的成就,但香草视觉Transformer(ViTs)仍然是图像编码器的默认选择。纯Transformer在文本编码领域证明了其有效性,但是对于图像编码来说,尤其是考虑到在ImageNet基准测试中提出了各种类型的网络,这一点仍然值得商榷。由于数据/模型规模较小,因此ImageNet上的模型设计的原始结论可能会受到限制和偏见。本文旨在构建一个视觉语言时代下的视觉模型评估协议,在对比语言-图像预训练(CLIP)框架下提供了全面的基准测试不同视觉模型的方法,涵盖了它们在零样本性能和模型及训练数据大小可扩展性方面的表现。为此,我们介绍了ViTamin,一种专门针对VLMs的新视觉模型。当使用相同的公开DataComp-1B数据集和相同的OpenCLIP训练方案时,ViTamin-L的ImageNet零样本准确率比ViT-L高出2.0%。ViTamin-L在包括分类、检索、开放式词汇检测和分割以及大型多模型模型在内的60个不同基准测试中呈现出有希望的结果。当进一步扩大模型规模时,我们的ViTamin-XL仅具有436M个参数,就可达到82.9%的ImageNet零样本准确率,超过了具有十倍参数(4.4B)的EVA-E所达到的82.0%。
- 图表
- 解决问题本论文旨在建立一种视觉语言模型的评估协议,涉及不同视觉模型的零样本性能和可扩展性,以及在对比语言-图像预训练(CLIP)框架下的性能比较。
- 关键思路本论文提出了一种新的视觉模型ViTamin,针对视觉语言模型进行优化,通过60个不同的基准测试,证明了其在零样本任务和模型规模扩展性方面的优越性。
- 其它亮点实验使用了DataComp-1B数据集和OpenCLIP训练方案,ViTamin-L在ImageNet零样本准确率上比ViT-L高2.0%,ViTamin-XL只有436M个参数,比EVA-E(4.4B个参数)更高的ImageNet零样本准确率。
- 最近的相关研究主要集中在视觉语言模型方面,如VLMs和CLIP等。
沙发等你来抢
去评论
评论
沙发等你来抢