- 简介本文介绍了一种新的任务——推理视频目标分割(ReasonVOS),旨在根据需要进行复杂推理的隐式文本查询生成分割掩模序列,以实现结构化环境理解和以物体为中心的交互,这对于体现AI的发展至关重要。现有的视频目标分割(VOS)依赖于明确的用户指令,如类别、掩模或简短短语,限制了它们执行需要与世界知识推理的复杂视频分割的能力。为了解决ReasonVOS,我们引入了基于视频的大型语言指导分割助手(VISA),利用多模式LLMs的世界知识推理能力,同时具有在视频中分割和跟踪对象的掩模解码器。此外,我们建立了一个包含来自1,042个不同视频的35,074个指令-掩模序列对的全面基准,将复杂的世界知识推理融入分割任务中,以用于ReasonVOS模型的指令调整和评估。在8个数据集上进行的实验表明,VISA在处理复杂推理分割和普通引用分割方面在视频和图像领域都非常有效。代码和数据集可在https://github.com/cilinyan/VISA上获得。
- 图表
- 解决问题本文试图解决的问题是现有视频对象分割技术需要显式用户指令,限制了其在需要与世界知识进行推理的复杂视频分割方面的能力。因此,提出了一种新任务,即基于推理的视频对象分割(ReasonVOS),旨在响应需要基于世界知识和视频上下文进行复杂推理的隐式文本查询,生成一系列分割掩模。该任务对于结构化环境理解和以物体为中心的交互至关重要,是体验式AI发展的关键。
- 关键思路本文提出了一种名为VISA的视频对象分割助手,利用多模态LLM的世界知识推理能力,同时具有分割和跟踪视频中对象的掩模解码器。此外,作者还建立了一个包含来自1042个不同视频的35074个指令-掩模序列对的综合基准,用于将复杂的世界知识推理纳入分割任务的指导和评估ReasonVOS模型的目的。作者在8个数据集上进行的实验表明,VISA在处理复杂推理分割和纯指代分割方面的有效性。
- 其它亮点本文的亮点包括建立了一个全面的基准,用于指导和评估ReasonVOS模型,提出了一种新的基于推理的视频对象分割任务,提出了一种新的视频对象分割助手VISA,利用多模态LLM的世界知识推理能力,同时具有分割和跟踪视频中对象的掩模解码器。作者还在8个数据集上进行了实验,并且开源了代码和数据集。
- 最近在这个领域中,还有一些相关的研究,例如:《Towards High-Resolution Video Object Segmentation》、《Fast Video Object Segmentation with Temporal Aggregation Network and Dynamic Template Matching》、《SiamMask: Fast Online Object Tracking and Segmentation:》等。
沙发等你来抢
去评论
评论
沙发等你来抢