- 简介在本文中,我们提出了一种高效调制的新型设计,用于高效视觉网络。我们重新审视了调制机制,它通过卷积上下文建模和特征投影层对输入进行操作,并通过逐元素乘法和MLP块融合特征。我们证明了调制机制特别适合于高效网络,并进一步通过提出高效调制(EfficientMod)块来定制调制设计,该块被认为是我们网络的基本构建块。由于调制机制和所提出的高效设计的显著表征能力,我们的网络可以在准确性和效率之间实现更好的权衡,并在高效网络的动物园中创造新的最先进的性能。当将EfficientMod与纯自注意力块集成时,我们获得了混合架构,进一步提高了性能而不损失效率。我们进行了全面的实验来验证EfficientMod的性能。在更少的参数下,我们的EfficientMod-s比EfficientFormerV2-s2高0.6的top-1准确率,并且在GPU上快25%,比MobileViTv2-1.0好2.9,并且在下游任务中表现出显着的改进,在ADE20K基准测试中比EfficientFormerV2-s高3.6 mIoU。代码和检查点可在https://github.com/ma-xu/EfficientMod上获得。
- 图表
- 解决问题本文旨在提出一种高效的视觉网络设计,解决在准确率和效率之间的平衡问题。
- 关键思路本文通过重新审视调制机制,并提出了一种高效调制块(EfficientMod),将其作为网络的基本构建块,以实现更好的准确率和效率平衡。
- 其它亮点本文的实验结果表明,相比于其他高效网络设计,EfficientMod-s在准确率和GPU速度方面都有显著提升,同时在ADE20K基准测试中也表现出色。此外,本文提供了开源代码和检查点。
- 在最近的相关研究中,也有一些关于高效网络设计的工作,如EfficientNet、MobileNet、ShuffleNet等。
沙发等你来抢
去评论
评论
沙发等你来抢