近一年来,视觉 Transformer(ViT)在图像任务上大放光芒,比如在图像分类、实例分割、目标检测分析和跟踪等任务上显示出了卓越的性能,展现出取代卷积神经网络的潜力。
但仍有证据表明,在大规模数据集上应用多个 Transformer 层进行预训练时,ViT 往往存在以下两个方面的问题:
  • 一是计算量大,内存负担大;

  • 二是在小规模数据集上从零开始训练时存在过拟合问题。

具体而言,对大规模数据集进行预训练和对下游任务进行调整对于虚拟信息处理来说是必不可少的,这往往会导致计算量过大和冗余,并且会增加额外的参数,从而增加内存负担。此外,具有多个 Transformer 编码层的 ViT 经常出现过拟合,特别是当训练数据有限的情况下。
为了解决这些问题,来自华东师范大学等机构的研究者们提出了一种新的图像分类方法,即 Vision Reservoir (ViR) 。通过将每个图像分割成一系列具有固定长度的 token,ViR 构建一个具有几乎完全连接拓扑的纯库,以替换 ViT 中的 Transformer 模块。为了提高网络性能,研究者还提出了两种深度 ViR 模型。
论文链接:https://arxiv.org/pdf/2112.13545.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除