- 简介先前轻量级模型的开发主要集中在CNN和Transformer设计上,但仍面临着持续的挑战。CNN擅长局部特征提取,但会降低分辨率,而Transformer在提供全局信息的同时也会增加计算需求,达到$\mathcal{O}(N^2)$。这种精度和效率之间的权衡仍然是一个重要的障碍。最近,状态空间模型(SSMs)如Mamba在各种任务中表现出色,例如语言建模和计算机视觉,同时将全局信息提取的时间复杂度降低到$\mathcal{O}(N)$。受此启发,本文提出探索视觉状态空间模型在轻量级模型设计中的潜力,并引入一种新的高效模型变体,称为EfficientVMamba。具体而言,我们的EfficientVMamba集成了一种基于孔卡扫描的选择性扫描方法,通过高效的跳跃采样构成了旨在利用全局和局部表示特征的构建块。此外,我们研究了SSM块和卷积之间的集成,并引入了一个高效的视觉状态空间块,结合一个额外的卷积分支,进一步提高了模型性能。实验结果表明,EfficientVMamba在缩小计算复杂度的同时,在各种视觉任务中产生了竞争力的结果。例如,我们的EfficientVMamba-S使用1.3G FLOPs,在ImageNet上的Vim-Ti使用1.5G FLOPs,精度提高了5.6%。代码可在以下网址找到:\url{https://github.com/TerryPei/EfficientVMamba}。
- 图表
- 解决问题本论文旨在探索视觉状态空间模型在轻量级模型设计中的潜力,并提出一种新的高效模型变体EfficientVMamba。论文试图解决当前模型在准确性和效率之间的权衡问题。
- 关键思路EfficientVMamba模型通过结合局部和全局特征提取,采用基于atrous的选择性扫描方法和高效的跳跃采样,将状态空间模型与卷积相结合,提高模型性能。该模型的时间复杂度为O(N),在多个视觉任务上展现出了竞争力。
- 其它亮点论文的实验结果表明,EfficientVMamba模型在多个视觉任务上的表现优于其他轻量级模型,例如在ImageNet上,FLOPs为1.3G的EfficientVMamba-S比FLOPs为1.5G的Vim-Ti提高了5.6%的准确率。此外,论文还提供了代码开源。
- 最近的相关研究包括CNN和Transformer模型的轻量级设计,但是这些模型在准确性和效率之间仍然存在权衡。与之不同的是,本文提出了一种新的模型EfficientVMamba,结合了状态空间模型和卷积,具有较高的性能和效率。
沙发等你来抢
去评论
评论
沙发等你来抢