Efficient Modulation for Vision Networks

2024年03月29日
  • 简介
    在本文中,我们提出了一种高效调制的新型设计,用于高效视觉网络。我们重新审视了调制机制,它通过卷积上下文建模和特征投影层对输入进行操作,并通过逐元素乘法和MLP块融合特征。我们证明了调制机制特别适合于高效网络,并进一步通过提出高效调制(EfficientMod)块来定制调制设计,该块被认为是我们网络的基本构建块。由于调制机制和所提出的高效设计的显著表征能力,我们的网络可以在准确性和效率之间实现更好的权衡,并在高效网络的动物园中创造新的最先进的性能。当将EfficientMod与纯自注意力块集成时,我们获得了混合架构,进一步提高了性能而不损失效率。我们进行了全面的实验来验证EfficientMod的性能。在更少的参数下,我们的EfficientMod-s比EfficientFormerV2-s2高0.6的top-1准确率,并且在GPU上快25%,比MobileViTv2-1.0好2.9,并且在下游任务中表现出显着的改进,在ADE20K基准测试中比EfficientFormerV2-s高3.6 mIoU。代码和检查点可在https://github.com/ma-xu/EfficientMod上获得。
  • 图表
  • 解决问题
    本文旨在提出一种高效的视觉网络设计,解决在准确率和效率之间的平衡问题。
  • 关键思路
    本文通过重新审视调制机制,并提出了一种高效调制块(EfficientMod),将其作为网络的基本构建块,以实现更好的准确率和效率平衡。
  • 其它亮点
    本文的实验结果表明,相比于其他高效网络设计,EfficientMod-s在准确率和GPU速度方面都有显著提升,同时在ADE20K基准测试中也表现出色。此外,本文提供了开源代码和检查点。
  • 相关研究
    在最近的相关研究中,也有一些关于高效网络设计的工作,如EfficientNet、MobileNet、ShuffleNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论