- 简介在大型基础模型领域中,Segment Anything Model(SAM)因其在图像分割中的出色表现而受到了显着的认可。然而,解决视频伪装物体检测(VCOD)任务则面临着独特的挑战。伪装物体通常与背景融为一体,在静态图像中很难区分。此外,在这种情况下确保时间上的一致性是一个具有挑战性的问题。因此,SAM在应用于VCOD任务时会遇到限制并表现不佳。为了克服这些挑战,我们提出了一种新方法,称为SAM传播模块(SAM-PM)。我们的传播模块通过采用时空交叉注意机制来强制执行SAM内的时间上的一致性。此外,我们专门训练传播模块,同时保持SAM网络权重冻结,以便将任务特定的见解与大型模型积累的广泛知识相结合。我们的方法通过增加少于1%的SAM参数,有效地将时间上的一致性和领域专业知识纳入分割网络。广泛的实验表明,与最新的最先进技术相比,在VCOD基准测试中表现出了显着的性能提升。代码和预训练权重在https://github.com/SpiderNitt/SAM-PM上开源。
- 图表
- 解决问题SAM在图像分割方面表现优异,但在视频伪装物体检测(VCOD)任务中存在挑战。本文旨在解决VCOD任务中的时序一致性问题。
- 关键思路本文提出了SAM传播模块(SAM-PM),通过引入时空交叉注意机制来实现SAM中的时序一致性。同时,本文还通过训练传播模块并保持SAM网络权重不变的方式,将任务特定的见解与大型模型积累的知识相结合。
- 其它亮点本文的方法在SAM参数增加不到1%的情况下,有效地将时序一致性和领域专业知识融入到分割网络中,在VCOD基准测试中表现出显着的性能提高。作者开源了代码和预训练权重。
- 最近的相关研究包括:'Camouflaged Object Detection in Video with Background Learning and Visual Saliency', 'Background-Aware Correlation Filter for Visual Tracking', 'Visual Tracking via Spatially Aligned Correlation Filters Network', 'Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking'等。
沙发等你来抢
去评论
评论
沙发等你来抢