Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

2025年01月07日
  • 简介
    这项工作提出了Sa2VA,这是首个统一的图像和视频密集型基础理解模型。与现有的多模态大型语言模型不同,这些模型通常仅限于特定的模态和任务,而Sa2VA支持广泛的图像和视频任务,包括指代分割和对话,只需极少的一次性指令微调。Sa2VA结合了SAM-2(一个基础视频分割模型)和LLaVA(一个先进的视觉-语言模型),将文本、图像和视频统一到一个共享的大型语言模型(LLM)标记空间中。通过使用LLM,Sa2VA生成指令标记,指导SAM-2生成精确的掩码,从而实现对静态和动态视觉内容的有根据的多模态理解。此外,我们引入了Ref-SAV,这是一个自动标注的数据集,包含超过72,000个复杂视频场景中的物体表达,旨在提升模型性能。我们还手动验证了Ref-SAV数据集中2,000个视频对象,以评估复杂环境中的指代视频对象分割。实验表明,Sa2VA在多个任务上达到了最先进的水平,特别是在指代视频对象分割方面,突显了其在复杂现实世界应用中的潜力。
  • 图表
  • 解决问题
    该论文旨在解决图像和视频的密集地面理解问题,特别是在多模态任务中的局限性。现有的多模态大型语言模型通常局限于特定的模态和任务,而本研究试图构建一个统一的模型来处理广泛的图像和视频任务,如指代分割和对话。
  • 关键思路
    Sa2VA的关键思路是将SAM-2(基础视频分割模型)与LLaVA(先进的视觉-语言模型)结合,通过统一文本、图像和视频到共享的LLM标记空间中,生成指导SAM-2生成精确掩码的指令标记。这使得Sa2VA能够在静态和动态视觉内容之间实现多模态理解。相比现有研究,Sa2VA不仅支持多种任务,还通过最小的一次性指令调优实现了高效的任务执行。
  • 其它亮点
    论文引入了Ref-SAV数据集,包含超过72,000个复杂视频场景中的对象表达,并手动验证了2,000个视频对象,以评估指代视频对象分割性能。实验结果表明,Sa2VA在多个任务上达到了最先进的水平,特别是在复杂的现实应用中表现突出。此外,该模型和数据集均已开源,为后续研究提供了宝贵资源。
  • 相关研究
    近期相关研究包括:1) SAM-2:一种专注于视频分割的基础模型;2) LLaVA:一种用于视觉-语言任务的先进模型;3) 其他多模态模型如CLIP和BLIP等。值得注意的是,这些模型大多集中在单一任务或特定模态上,而Sa2VA则试图通过统一框架涵盖更多任务。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论