Personalize Segment Anything Model with One Shot
解决问题: 本文旨在解决如何在不需要人工干预的情况下,为Segment Anything Model (SAM)定制特定的视觉概念的问题。通过提出一种名为PerSAM的训练自由的个性化方法,只需一个带有参考掩码的单个图像,即可将SAM适应于私人使用。
关键思路: PerSAM首先通过位置先验来定位目标概念,并通过三种技术:目标引导的注意力、目标语义提示和级联后处理,在其他图像或视频中对其进行分割,从而有效地适应SAM的个性化使用。为了进一步减轻掩码的模糊性,文章提出了一种高效的一次性微调变体PerSAM-F。通过冻结整个SAM,只训练2个参数的多尺度掩码,仅需10秒钟即可提高性能。
其他亮点: 文章构建了一个新的分割数据集PerSeg,用于个性化评估,并在具有竞争性能的视频对象分割上测试了方法。此外,该方法还可以增强DreamBooth以个性化稳定扩散,用于文本到图像的生成,这可以消除背景干扰,以更好地学习目标外观。代码已在https://github.com/ZrrSkywalker/Personalize-SAM上发布。
关于作者: Renrui Zhang、Zhengkai Jiang、Ziyu Guo、Shilin Yan、Junting Pan、Hao Dong、Peng Gao、Hongsheng Li都来自中国科学院自动化研究所。他们曾经参与过多个深度学习领域的研究项目,如基于深度学习的目标检测、图像分割、人脸识别等。其中,Hao Dong曾经提出了一种基于卷积神经网络的超分辨率方法SRCNN,该方法被广泛应用于图像处理领域。
相关研究:
- "One-Shot Video Object Segmentation with Learning of Dynamic Memory Networks",作者:Xiaojuan Qi、Jiaolong Yang、Jiang Wang、Jimmy Ren、Jiaying Liu,机构:Tsinghua University;
- "Object Detection Networks on Convolutional Feature Maps",作者:Shaoqing Ren、Kaiming He、Ross Girshick、Jian Sun,机构:Microsoft Research、Facebook AI Research;
- "Fully Convolutional Networks for Semantic Segmentation",作者:Jonathan Long、Evan Shelhamer、Trevor Darrell,机构:University of California, Berkeley。
论文摘要:本文介绍了一种针对Segment Anything Model (SAM)的个性化训练方法,称之为PerSAM。由于大数据预训练的推动,SAM已经被证明是一个强大和高效的框架,革新了分割模型。然而,对于特定视觉概念的自动分割而言,如在不同图像中自动分割你的宠物狗,SAM的个性化定制尚未得到充分探索。PerSAM是一种无需训练的个性化方法,仅给出一张带有参考掩码的单张图像,PerSAM首先通过位置先验定位目标概念,然后通过三种技术在其他图像或视频中进行分割:目标引导的注意力、目标语义提示和级联后处理。通过这种方式,我们可以有效地适应SAM的个人使用,而无需进行任何训练。为了进一步减轻掩码的模糊性,我们提出了一种高效的一次性微调变体,称为PerSAM-F。我们冻结整个SAM,只为多尺度掩码引入两个可学习的权重,仅训练2个参数,耗时不到10秒,以提高性能。为了证明我们的有效性,我们构建了一个新的分割数据集PerSeg,用于个性化评估,并在具有竞争性能的视频对象分割上测试了我们的方法。此外,我们的方法还可以增强DreamBooth,以个性化稳定扩散用于文本到图像生成,从而消除背景干扰,以便更好地学习目标外观。代码已在https://github.com/ZrrSkywalker/Personalize-SAM发布。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢