论文标题:Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective 论文链接:https://arxiv.org/abs/2102.11535 代码链接:https://github.com/VITA-Group/TENAS 作者单位:得克萨斯大学奥斯汀分校 本文提出TE-NAS:第一个发布的无训练神经网络架构搜索方法,具有极快的搜索速度(完全没有梯度下降!)和高质量的性能,在1080 Ti上 4 GPU小时即可完成搜索,代码现已开源!

对神经网络架构搜索(NAS)进行了爆炸性研究,以自动发现高性能神经网络。当前的工作需要对超网进行大量训练或对体系结构进行密集的评估,因此,资源消耗沉重,并且由于截短的训练或近似而经常导致搜索偏向。我们是否可以在不进行任何训练的情况下选择最佳的神经架构,并消除大量的搜索费用?通过提出一种称为无训练神经网络架构搜索(TE-NAS)的新颖框架,我们提供了肯定的答案。 TE-NAS通过分析神经切核(NTK)的频谱和输入空间中线性区域的数量来对体系结构进行排名。两者均受深度网络中最新理论进展的推动,并且无需任何培训和标签即可进行计算。我们证明:(1)这两个测量结果暗示了神经网络的可训练性和表达能力; (2)它们与网络的测试准确性密切相关。进一步,我们设计了基于修剪的NAS机制,以在搜索过程中的可训练性和表达能力之间实现更灵活,更优的权衡。在NAS-Bench-201和DARTS搜索空间中,TE-NAS可以完成高质量的搜索,但在CIFAR-10和ImageNet上使用一个1080Ti只需花费0.5和4个GPU小时。我们希望我们的工作能激发更多尝试,以融合深层网络的理论发现和对实际NAS应用的实际影响。

内容中包含的图片若涉及版权问题,请及时与我们联系删除