- 简介Segment Anything Model(SAM)是分割模型中的一个重要里程碑,其鲁棒的零样本能力和处理各种提示的能力备受关注。SAM遵循一个流程,将交互式分割分为通过大型编码器的图像预处理和通过轻量级解码器的交互式推理,确保高效的实时性能。然而,在这个流程中,SAM在处理具有挑战性的样本时面临稳定性问题。这些问题源于两个主要因素。首先,图像预处理使SAM无法动态使用图像级放大策略,在交互过程中重新聚焦于目标对象。其次,轻量级解码器难以充分整合交互信息和图像嵌入。为了解决这两个限制,我们提出了FocSAM,其流程在两个关键方面进行了重新设计。首先,我们提出了动态窗口多头自注意力(Dwin-MSA),以动态地将SAM的图像嵌入重新聚焦于目标对象。Dwin-MSA将注意力计算局部化到目标对象周围,以最小的计算开销增强与对象相关的嵌入。其次,我们提出了像素级动态ReLU(P-DyReLU),以使来自少数初始点击的交互信息充分整合,这些点击对整体分割结果有重大影响。实验结果表明,FocSAM增强了SAM的交互式分割性能,使其与现有的分割质量最高的方法相匹配,在CPU上仅需要该方法推理时间的约5.6%。
- 图表
- 解决问题SAM模型在交互式分割中存在稳定性问题,无法动态使用图像级缩放策略来重新聚焦目标对象,并且轻量级解码器难以充分集成交互信息和图像嵌入。
- 关键思路提出了FocSAM来解决这两个限制,通过动态窗口多头自注意力(Dwin-MSA)和像素动态ReLU(P-DyReLU)重新设计了SAM的管道。
- 其它亮点FocSAM通过Dwin-MSA和P-DyReLU的改进,使交互式分割表现得与现有最先进方法相当,但仅需要其推理时间的5.6%。实验使用了数据集并开源了代码。
- 最近的相关研究包括:Interactive Image Segmentation with Latent Diversity,Interactive Object Selection with Point Supervision,和Interactive Segmentation with Weak User Feedback。
沙发等你来抢
去评论
评论
沙发等你来抢