Efficient Track Anything - 智源社区论文

简介

段落二（最后一段）的翻译如下：视频对象分割和跟踪任何物体的工具中，Segment Anything Model 2 (SAM 2) 已经崭露头角，成为了一个强大的工具。SAM 2 的关键组件包括用于帧特征提取的大规模多阶段图像编码器和一个存储过去帧记忆上下文的记忆机制，以帮助当前帧的分割。然而，多阶段图像编码器和记忆模块的高计算复杂度限制了其在实际任务中的应用，例如在移动设备上的视频对象分割。为了解决这一局限性，我们提出了 EfficientTAMs，这是一种轻量级的跟踪任何物体模型，能够在保持高质量结果的同时降低延迟和模型大小。我们的思路是重新审视作为视频对象分割图像编码器的简单、非层次化的视觉变换器（ViT），并引入一个高效的记忆模块，从而减少帧特征提取和当前帧分割时的记忆计算复杂度。我们使用基础的轻量级 ViT 和高效记忆模块构建了 EfficientTAMs，并在 SA-1B 和 SA-V 数据集上训练这些模型，用于视频对象分割和跟踪任何物体的任务。我们在多个视频分割基准上进行了评估，包括半监督 VOS 和提示式视频分割，发现我们提出的基于基础 ViT 的 EfficientTAM 在 A100 上的速度比 SAM 2 模型（HieraB+SAM 2）快约两倍，参数量减少了约 2.4 倍。在分割任何图像的任务中，我们的 EfficientTAMs 表现也优于原始的 SAM，在 A100 上的速度提高了约 20 倍，参数量减少了约 20 倍。在如 iPhone 15 Pro Max 等移动设备上，我们的 EfficientTAMs 可以以约 10 FPS 的速度执行视频对象分割，质量合理，突显了小型模型在设备端视频对象分割应用中的能力。
图表
解决问题

论文试图解决视频对象分割和跟踪在移动设备等资源受限环境中的应用问题，特别是针对计算复杂度较高的SAM 2模型。这是一个实际应用中的重要问题，旨在提高模型的效率和实时性。
关键思路

论文的关键思路是重新审视非层次化的Vision Transformer (ViT) 作为图像编码器，并引入一个高效的内存模块，以减少帧特征提取和当前帧分割的计算复杂度。这一思路通过使用轻量级的ViT和高效的内存机制，显著降低了模型的参数量和推理时间，同时保持了较高的分割质量。
其它亮点

论文在多个视频分割基准上进行了评估，包括半监督VOS和提示式视频分割任务。实验结果显示，EfficientTAMs在A100 GPU上比SAM 2模型快约2倍，参数量减少了约2.4倍。在iPhone 15 Pro Max上，EfficientTAMs可以达到约10 FPS的处理速度，适用于移动设备上的视频对象分割任务。此外，论文还提供了开源代码，便于复现和进一步研究。
相关研究

最近在这个领域中，相关的研究还包括： 1. 'Masked Autoencoders Are Scalable Vision Transformers' - 探索了自编码器在视觉任务中的应用。 2. 'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows' - 提出了基于移位窗口的分层ViT，用于高效图像识别。 3. 'ViT-Adapter: Making Vision Transformers Work in Practice' - 研究了如何改进ViT以适应实际应用场景。 4. 'Dynamic Filter Networks for Video Object Segmentation' - 针对视频对象分割提出了动态滤波网络。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论