【NeurIPS 2021】寻找视觉Transformer的搜索空间

在识别和检测等实质性视觉任务中，Vision Transformer显示了强大的视觉表示能力，因此在手工设计更有效的架构方面吸引了快速增长的努力。在本文中，我们提出使用神经体系结构搜索来自动化这个过程，不仅搜索体系结构，而且搜索搜索空间。其核心思想是通过使用权重共享超级网络计算出的E-T误差，逐步演化出不同的搜索维度。根据空间搜索过程，给出了一般视觉变换器的设计指南，并进行了广泛的分析，促进了对视觉变换器的认识。值得注意的是，在ImageNet上进行评估时，来自搜索空间的搜索模型S3 (Search Space的简称)的性能优于最近提出的模型，如Swin、DeiT和ViT。S3在目标检测、语义分割和视觉问题回答方面的有效性也得到了说明，说明了它对下游视觉和视觉语言任务的通用性。

论文链接：

https://www.microsoft.com/en-us/research/publication/searching-the-search-space-of-vision-transformer/

代码：

https://github.com/microsoft/Cream

内容中包含的图片若涉及版权问题，请及时与我们联系删除

【NeurIPS 2021】寻找视觉Transformer的搜索空间

评论列表

评论