EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM

2023年12月11日
  • 简介
    本文介绍了EdgeSAM,这是Segment Anything Model (SAM)的加速变体,经过优化以在边缘设备上高效执行,同时性能几乎没有妥协。我们的方法是将原始的基于ViT的SAM图像编码器提炼为纯CNN架构,更适合边缘设备。我们仔细评估了各种提炼策略,并证明了任务不可知的编码器提炼无法捕捉SAM所包含的全部知识。为了克服这个瓶颈,我们将提示编码器和掩码解码器都包含在提炼过程中,并在循环中使用框和点提示,以便提炼出的模型可以准确地捕捉用户输入和掩码生成之间的复杂动态。为了缓解点提示提炼带来的数据集偏差问题,我们在编码器中加入了一个轻量级模块。EdgeSAM相比原始SAM速度提高了40倍,而且在部署在边缘设备上时比MobileSAM快14倍,同时将COCO和LVIS上的mIoUs分别提高了2.3和3.2。它也是第一个可以在iPhone 14上以超过30 FPS运行的SAM变体。代码和模型可在https://github.com/chongzhou96/EdgeSAM上获得。
  • 图表
  • 解决问题
    本文旨在提出一种适用于边缘设备的快速图像分割模型EdgeSAM,以解决现有模型在边缘设备上执行效率低下的问题。
  • 关键思路
    EdgeSAM通过将原始SAM模型中的ViT图像编码器转化为纯CNN架构,以更适合边缘设备的方式进行加速,并采用多种蒸馏策略来确保模型的性能和精度。其中包括将提示编码器和掩码解码器纳入到蒸馏过程中,以捕捉用户输入和掩码生成之间的复杂动态关系。
  • 其它亮点
    实验结果表明,EdgeSAM相比原始SAM模型具有40倍的加速比和更好的性能表现,且比MobileSAM更快14倍。同时,在COCO和LVIS数据集上,EdgeSAM的mIoUs分别提高了2.3和3.2。此外,EdgeSAM还是第一个可以在iPhone 14上以超过30 FPS运行的SAM变体。作者已经开源了代码和模型,方便其他研究者使用和改进。
  • 相关研究
    在最近的相关研究中,一些论文也探讨了如何在边缘设备上进行高效的图像分割,例如《EfficientNetV2: Smaller Models and Faster Training》和《Real-time Semantic Segmentation on Mobile Devices with MobileNetV3》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论