在识别和检测等实质性视觉任务中,Vision Transformer显示了强大的视觉表示能力,因此在手工设计更有效的架构方面吸引了快速增长的努力。在本文中,我们提出使用神经体系结构搜索来自动化这个过程,不仅搜索体系结构,而且搜索搜索空间。其核心思想是通过使用权重共享超级网络计算出的E-T误差,逐步演化出不同的搜索维度。根据空间搜索过程,给出了一般视觉变换器的设计指南,并进行了广泛的分析,促进了对视觉变换器的认识。值得注意的是,在ImageNet上进行评估时,来自搜索空间的搜索模型S3 (Search Space的简称)的性能优于最近提出的模型,如Swin、DeiT和ViT。S3在目标检测、语义分割和视觉问题回答方面的有效性也得到了说明,说明了它对下游视觉和视觉语言任务的通用性。

论文链接:

https://www.microsoft.com/en-us/research/publication/searching-the-search-space-of-vision-transformer/

代码:

https://github.com/microsoft/Cream

内容中包含的图片若涉及版权问题,请及时与我们联系删除