MobileSAMv2: Faster Segment Anything to Everything

2023年12月15日
  • 简介
    Segment Anything Model (SAM)解决了两个实际但具有挑战性的分割任务:\textbf{分割任何物体(SegAny)},它利用特定点来预测单个感兴趣物体的掩模;以及\textbf{分割图像中的所有物体(SegEvery)},它预测图像中所有物体的掩模。SAM中SegAny的效率瓶颈在于其沉重的图像编码器,而MobileSAM通过解耦合的知识蒸馏来解决了这个问题。然而,SAM中SegEvery的效率瓶颈在于其掩模解码器,因为它需要先生成大量掩模,然后进行过滤以获得最终有效的掩模。我们提出通过直接使用仅有效提示生成最终掩模来提高其效率,这些提示可以通过对象发现获得。我们提出的方法不仅有助于将掩模解码器的总时间减少至少16倍,而且性能优越。具体而言,我们的方法在LVIS数据集上的零样本对象提议任务中,使用掩模AR@$K$度量,平均性能提升3.6\%(42.5\%与38.9\%相比)。定性结果表明,我们的方法生成了细粒度的掩模,同时避免了过分分割的情况。这个旨在比原始SAM更快的SegEvery项目被称为MobileSAMv2,以与旨在更快的SegAny的MobileSAM区分开来。此外,我们证明了我们的新提示采样也与MobileSAM中的蒸馏图像编码器兼容,为高效的SegAny和SegEvery提供了统一的框架。代码可在与MobileSAM项目相同的链接处获得:\href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{https://github.com/ChaoningZhang/MobileSAM}}。
  • 图表
  • 解决问题
    SAM试图解决分割任务中的两个实际而具有挑战性的问题:SegAny和SegEvery。其中,SegAny利用某个点预测感兴趣的单个对象的掩模,而SegEvery则预测图像中所有对象的掩模。
  • 关键思路
    MobileSAMv2通过直接使用有效提示生成最终掩模来提高SegEvery的效率,从而解决了SAM中掩模解码器的效率瓶颈问题。这种方法不仅可以将掩模解码器的总时间减少至少16倍,还可以获得更好的性能。
  • 其它亮点
    论文提出的方法在LVIS数据集上实现了3.6%的平均性能提升,并且生成了细粒度的掩模同时避免了过度分割物品。此外,论文还展示了新的提示采样与MobileSAM中的蒸馏图像编码器兼容,为高效的SegAny和SegEvery提供了统一的框架。论文提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如DeepLabv3+、Mask R-CNN、Panoptic FPN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论