MobileSAMv2: Faster Segment Anything to Everything

简介

Segment Anything Model (SAM)解决了两个实际但具有挑战性的分割任务：\textbf{分割任何物体（SegAny）}，它利用特定点来预测单个感兴趣物体的掩模；以及\textbf{分割图像中的所有物体（SegEvery）}，它预测图像中所有物体的掩模。SAM中SegAny的效率瓶颈在于其沉重的图像编码器，而MobileSAM通过解耦合的知识蒸馏来解决了这个问题。然而，SAM中SegEvery的效率瓶颈在于其掩模解码器，因为它需要先生成大量掩模，然后进行过滤以获得最终有效的掩模。我们提出通过直接使用仅有效提示生成最终掩模来提高其效率，这些提示可以通过对象发现获得。我们提出的方法不仅有助于将掩模解码器的总时间减少至少16倍，而且性能优越。具体而言，我们的方法在LVIS数据集上的零样本对象提议任务中，使用掩模AR@$K$度量，平均性能提升3.6\%（42.5\%与38.9\%相比）。定性结果表明，我们的方法生成了细粒度的掩模，同时避免了过分分割的情况。这个旨在比原始SAM更快的SegEvery项目被称为MobileSAMv2，以与旨在更快的SegAny的MobileSAM区分开来。此外，我们证明了我们的新提示采样也与MobileSAM中的蒸馏图像编码器兼容，为高效的SegAny和SegEvery提供了统一的框架。代码可在与MobileSAM项目相同的链接处获得：\href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{https://github.com/ChaoningZhang/MobileSAM}}。
图表
解决问题

SAM试图解决分割任务中的两个实际而具有挑战性的问题：SegAny和SegEvery。其中，SegAny利用某个点预测感兴趣的单个对象的掩模，而SegEvery则预测图像中所有对象的掩模。
关键思路

MobileSAMv2通过直接使用有效提示生成最终掩模来提高SegEvery的效率，从而解决了SAM中掩模解码器的效率瓶颈问题。这种方法不仅可以将掩模解码器的总时间减少至少16倍，还可以获得更好的性能。
其它亮点

论文提出的方法在LVIS数据集上实现了3.6％的平均性能提升，并且生成了细粒度的掩模同时避免了过度分割物品。此外，论文还展示了新的提示采样与MobileSAM中的蒸馏图像编码器兼容，为高效的SegAny和SegEvery提供了统一的框架。论文提供了开源代码。
相关研究

最近在这个领域中，还有一些相关的研究，如DeepLabv3+、Mask R-CNN、Panoptic FPN等。

MobileSAMv2: Faster Segment Anything to Everything

评论