【伯克利博士论文】高效、可扩展的视觉识别神经体系结构

ConvNets和其他神经体系结构在计算机视觉方面的成功应用是过去十年人工智能革命的核心。对于可扩展视觉架构的强烈需求是既小又大。小型模型代表了对效率的需求，因为视觉识别系统通常部署在边缘设备上;大型模型强调了对可扩展性的追求——利用日益丰富的计算和数据实现更高精度的能力。这两个方向的研究都是卓有成效的，产生了许多有用的设计原则，对更多性能模型的追求从未停止。同时，文献中非常快的发展速度有时会掩盖某些方法取得良好结果的主要机制。在本论文中，我们将从两个方面展开研究:(1)开发高效灵活的ConvNet模型推理直观算法;(2)研究基线方法，揭示流行可扩展方法成功背后的原因。首先，我们将介绍我们对第一个随时密集预测算法之一的工作。然后，我们将通过将模型修剪算法与一个极其简单的基线进行比较来检验它们的有效性，并论证它们的真正价值可能在于学习架构。最后，通过采用《Transformers》中的设计技术对传统的ConvNet进行现代化改造，我们提出了关于自注意力是否导致了Transformer最近出色的视觉扩展性的问题。

论文链接：https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-205.html

内容中包含的图片若涉及版权问题，请及时与我们联系删除

【伯克利博士论文】高效、可扩展的视觉识别神经体系结构

评论列表

评论