- 简介尽管视频感知模型近年来取得了显著进展,但它们仍然严重依赖于明确的文本描述或预定义的类别,在执行视频感知任务之前识别目标实例。然而,这些模型无法通过文本输入主动理解和推断用户的意图。尽管先前的研究尝试探索将推理与图像分割相结合的解决方案,但由于视频中物体运动的复杂性,它们无法推理视频。为了弥合图像和视频之间的差距,本文提出了一项新的视频分割任务——视频推理分割。该任务旨在在给定复杂的文本查询的情况下输出分割掩码的轨迹。此外,为了促进这个未被探索领域的研究,我们构建了一个推理视频分割基准。最后,我们提出了ViLLa:一种具有大型语言模型的视频推理分割模型,它结合了多模态大型语言模型的语言生成能力,同时保留了检测、分割和跟踪多个实例的能力。我们使用一个时间感知的上下文聚合模块将上下文视觉线索融入文本嵌入中,并提出了一个视频帧解码器来建立分割标记之间的时间相关性。显著的是,我们的ViLLa展示了处理复杂推理和引用视频分割的能力。此外,我们的模型在不同的时间理解基准测试中展现出令人印象深刻的能力。定量和定性实验表明,我们的方法有效地为多模态大型语言模型解锁了新的视频推理分割能力。代码和数据集将在https://github.com/rkzheng99/ViLLa上提供。
-
- 图表
- 解决问题本篇论文试图解决视频理解模型在处理复杂文本查询时的局限性,提出了一种新的视频分割任务 - 视频推理分割,并构建了一个相应的基准测试集。
- 关键思路论文提出了一种新的视频推理分割任务,该任务旨在通过复杂的文本查询输出分割掩模的轨迹,提出了ViLLa模型,该模型结合了多模式大型语言模型的语言生成能力和多目标检测、分割和跟踪的能力,并使用时间感知的上下文聚合模块和视频帧解码器来处理复杂的推理和引用视频分割。
- 其它亮点论文提出的ViLLa模型在视频推理分割任务和不同时间理解基准测试中表现出色,有效地解决了多模式大型语言模型在视频分割中的局限性。论文还构建了一个视频推理分割基准测试集,并提供了代码和数据集。
- 最近的相关研究包括使用图神经网络进行视频分割和跟踪的研究(VideoGraph)以及使用注意力机制来处理视频分割任务的研究(ViSN)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流