- 简介开放世界视频实例分割是一项重要的视频理解任务。然而,大多数方法要么在封闭世界设置下运行,要么需要额外的用户输入,要么使用经典的基于区域的提议来识别从未见过的对象。此外,这些方法只为检测到的对象分配一个单词标签,并且不生成丰富的以对象为中心的描述。它们也经常遭受高度重叠的预测的困扰。为了解决这些问题,我们提出了开放世界视频实例分割和字幕生成(OW-VISCap)的方法,用于共同分割、跟踪和说明视频中以前看到或未看到的对象。为此,我们引入了开放世界对象查询,以发现从未见过的对象,而无需额外的用户输入。我们通过掩膜注意力增强的LLM输入为每个检测到的对象生成丰富而描述性的以对象为中心的字幕。我们引入了一种互查询对比损失,以确保对象查询彼此不同。我们的广义方法在三个任务上与或超过了最先进的水平:在BURST数据集上进行开放世界视频实例分割,在VidSTG数据集上进行密集视频对象字幕生成,在OVIS数据集上进行封闭世界视频实例分割。
- 图表
- 解决问题本论文旨在解决开放世界视频实例分割和字幕生成问题,其中涉及到之前未见过的物体的发现和丰富的物体中心描述。
- 关键思路本论文提出了一种同时分割、跟踪和字幕生成视频中已知或未知物体的方法,引入了开放世界物体查询来发现之前未见过的物体,使用掩蔽注意力增强的LLM输入为每个检测到的物体生成丰富的描述,并引入了查询间对比损失来确保物体查询彼此不同。
- 其它亮点论文使用了BURST数据集进行开放世界视频实例分割、VidSTG数据集进行密集视频对象字幕生成、OVIS数据集进行封闭世界视频实例分割,实验结果表明本方法与最先进的方法相当或优于最先进的方法。论文还提到了一些值得进一步研究的工作,如如何处理高度重叠的预测、如何处理多个物体的交互等。
- 相关研究包括Mask R-CNN、YOLOv3、Faster R-CNN等物体检测和分割方法,以及DenseCap、Show and Tell等视频字幕生成方法。
沙发等你来抢
去评论
评论
沙发等你来抢