CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法

近期，ViT 在计算机视觉领域展现了出强大的竞争力、在多个任务里取得了惊人的进展。随着许多人工设计的 ViT 结构（如Swin-Transformer、PVT、XCiT 等）的出现，面向 ViT 的结构搜索（TAS) 开始受到越来越多的关注。TAS 旨在以自动化的方式在 ViT 搜索空间（如MSA 的 head 数量、channel ratio 等）中找到更优的网络结构。基于 one-shot NAS 的方案（如AutoFormer、GLiT 等）已经取得了初步进展，但他们仍然需要很高的计算成本（如24 GPU days 以上）。主要原因有以下两点：

在空间的复杂度上，ViT 搜索空间（如，GLiT 空间的量级约 10^30）在数量上远远超过 CNN 搜索空间（如，DARTS 空间的量级约 10^18）；
ViT 模型通常需要更多的训练周期（如300 epochs）才能知道其对应的效果。

在近期的一篇论文《Training-free Transformer Architecture Search》中，来自腾讯优图实验室、厦门大学、鹏城实验室等结构的研究者回顾近些年 NAS 领域的进展，并注意到：为了提高搜索效率，研究社区提出了若干零成本代理（zero-cost proxy）的评估指标（如GraSP、TE-score 和 NASWOT)。这些方法让我们能够在无需训练的条件下就能评估出不同 CNN 结构的排序关系，从而极大程度上节省计算成本。

论文地址：https://arxiv.org/pdf/2203.12217.pdf
项目地址：https://github.com/decemberzhou/TF_TAS

方法的整体框架图

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022 Oral | 腾讯优图&厦门大学提出无需训练的ViT结构搜索算法

评论列表

评论