视觉模型有很大的提升空间,研究者们在以往的 LLM 中学到经验教训,认为扩展是一个很有前途的方法。来自谷歌的研究者将 ViT 扩展到 22B 参数量,这是迄今为止报道的最大的视觉主干。

论文地址:https://arxiv.org/pdf/2302.05442.pdf

与自然语言处理类似,对预训练视觉主干的迁移提高了模型在各种视觉任务上的性能。更大的数据集、可扩展的架构和新的训练方法都推动了模型性能的提升。

然而,视觉模型仍然远远落后于语言模型。具体来说,迄今为止最大的视觉模型 ViT 只有 4B 参数,而入门级语言模型通常超过 10B 参数,更别说具有 540B 参数的大型语言模型。

为了探索 AI 模型的性能极限,Google Research 最近在 CV 领域的一项研究,率先将 Vision Transformer 参数量扩展到了 22B,提出 ViT-22B,与之前类似的模型参数量 4B 相比,可以说这是迄今为止最大的稠密型 ViT 模型。

参考链接:https://www.zhihu.com/question/583748997

阅读更多,请点击这里

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除