- 简介我们提出了“Segment Anything Model 2”(SAM 2),这是解决图像和视频中可提示的视觉分割问题的基础模型。我们构建了一个数据引擎,通过用户交互改善模型和数据,收集了迄今最大的视频分割数据集。我们的模型是一个简单的变压器架构,具有实时视频处理的流式存储器。在我们的数据集上训练的SAM 2在各种任务中提供了强大的性能。在视频分割中,我们观察到更好的准确性,使用的交互次数比之前的方法少3倍。在图像分割中,我们的模型比“Segment Anything Model”(SAM)更准确,速度快6倍。我们相信,我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑。我们将发布我们的模型版本、数据集和交互演示。
- 图表
- 解决问题SAM 2试图解决可提示的图像和视频分割问题,通过用户交互来改进模型和数据,构建最大的视频分割数据集。
- 关键思路SAM 2是一个基于Transformer架构的模型,使用流式内存进行实时视频处理,相比之前的方法,在3倍少的交互次数下提供更好的准确性。
- 其它亮点SAM 2使用用户交互来改进模型和数据,构建了迄今为止最大的视频分割数据集。在视频分割中,相比之前的方法,在3倍少的交互次数下提供更好的准确性。在图像分割中,SAM 2比Segment Anything Model(SAM)更准确且快6倍。作者已经发布了模型、数据集和交互演示。
- 相关研究包括:DeepLab、Mask R-CNN、U-Net等。
沙发等你来抢
去评论
评论
沙发等你来抢