近期,ViT 在计算机视觉领域展现了出强大的竞争力、在多个任务里取得了惊人的进展。随着许多人工设计的 ViT 结构(如Swin-Transformer、PVT、XCiT 等)的出现,面向 ViT 的结构搜索(TAS) 开始受到越来越多的关注。TAS 旨在以自动化的方式在 ViT 搜索空间(如MSA 的 head 数量、channel ratio 等)中找到更优的网络结构。基于 one-shot NAS 的方案(如AutoFormer、GLiT 等)已经取得了初步进展,但他们仍然需要很高的计算成本(如24 GPU days 以上)。主要原因有以下两点:

  1. 在空间的复杂度上,ViT 搜索空间(如,GLiT 空间的量级约 10^30)在数量上远远超过 CNN 搜索空间(如,DARTS 空间的量级约 10^18);

  2. ViT 模型通常需要更多的训练周期(如300 epochs)才能知道其对应的效果。

在近期的一篇论文《Training-free Transformer Architecture Search》中,来自腾讯优图实验室、厦门大学、鹏城实验室等结构的研究者回顾近些年 NAS 领域的进展,并注意到:为了提高搜索效率,研究社区提出了若干零成本代理(zero-cost proxy)的评估指标(如GraSP、TE-score 和 NASWOT)。这些方法让我们能够在无需训练的条件下就能评估出不同 CNN 结构的排序关系,从而极大程度上节省计算成本。

方法的整体框架图

内容中包含的图片若涉及版权问题,请及时与我们联系删除