- 简介我们提出了EfficientViT-SAM,一种新的加速段落任意模型。我们保留了SAM的轻量级提示编码器和掩码解码器,同时用EfficientViT替换了沉重的图像编码器。在训练方面,我们从SAM-ViT-H图像编码器到EfficientViT的知识蒸馏开始。随后,我们在SA-1B数据集上进行端到端训练。由于EfficientViT的效率和容量,EfficientViT-SAM在A100 GPU上比SAM-ViT-H快48.9倍,而不牺牲性能。我们的代码和预训练模型发布在https://github.com/mit-han-lab/efficientvit。
-
- 图表
- 解决问题本文旨在提出一种新的加速分段任意模型的方法,通过使用EfficientViT替换重量级的图像编码器,保留SAM的轻量级提示编码器和掩码解码器,以提高模型效率。
- 关键思路本文的关键思路是使用EfficientViT替换SAM的图像编码器,进行知识蒸馏和端到端训练,以提高模型的速度和性能。
- 其它亮点本文的亮点包括使用EfficientViT提高模型的效率和能力,以及在SA-1B数据集上进行的端到端训练。通过在A100 GPU上进行测试,EfficientViT-SAM相对于SAM-ViT-H获得了48.9倍的加速比,同时不会影响性能。此外,作者还发布了代码和预训练模型。
- 最近的相关研究包括ViT、SAM和EfficientNet。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流