EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

简介

我们提出了EfficientViT-SAM，一种新的加速段落任意模型。我们保留了SAM的轻量级提示编码器和掩码解码器，同时用EfficientViT替换了沉重的图像编码器。在训练方面，我们从SAM-ViT-H图像编码器到EfficientViT的知识蒸馏开始。随后，我们在SA-1B数据集上进行端到端训练。由于EfficientViT的效率和容量，EfficientViT-SAM在A100 GPU上比SAM-ViT-H快48.9倍，而不牺牲性能。我们的代码和预训练模型发布在https://github.com/mit-han-lab/efficientvit。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种新的加速分段任意模型的方法，通过使用EfficientViT替换重量级的图像编码器，保留SAM的轻量级提示编码器和掩码解码器，以提高模型效率。
关键思路

本文的关键思路是使用EfficientViT替换SAM的图像编码器，进行知识蒸馏和端到端训练，以提高模型的速度和性能。
其它亮点

本文的亮点包括使用EfficientViT提高模型的效率和能力，以及在SA-1B数据集上进行的端到端训练。通过在A100 GPU上进行测试，EfficientViT-SAM相对于SAM-ViT-H获得了48.9倍的加速比，同时不会影响性能。此外，作者还发布了代码和预训练模型。
相关研究

最近的相关研究包括ViT、SAM和EfficientNet。