- 简介本文研究了基于自然语言表达的视频分割,通常强调运动线索,以识别和分割物体。以往的方法将句子作为一个整体,在视频级别直接执行识别,混淆了静态图像级别线索和时间运动线索。然而,图像级别特征不能很好地理解句子中的运动线索,静态线索对于时间感知并不重要。实际上,静态线索有时会通过掩盖运动线索来干扰时间感知。因此,本文提出将视频级别的指代表达理解分解为静态和运动感知,并特别强调增强时间理解。首先,我们引入了一个表达解耦模块,使静态线索和运动线索发挥各自的作用,缓解了句子嵌入忽略运动线索的问题。其次,我们提出了一个分层运动感知模块,有效地捕捉了不同时间尺度上的时间信息。此外,我们采用对比学习来区分视觉上相似物体的运动。这些贡献在包括具有挑战性的MeViS数据集在内的五个数据集上产生了最先进的性能,其中MeViS数据集的$\mathcal{J\&F}$指标有显著的$\textbf{9.2%}$提高。代码可在https://github.com/heshuting555/DsHmp上获得。
-
- 图表
- 解决问题论文旨在解决视频分割中自然语言表述的问题,尤其是在强调动态线索方面,通过将视频级别的表述理解分解为静态和动态感知来增强时间感知。
- 关键思路论文的关键思路是通过引入表达解耦模块来区分静态线索和动态线索的不同作用,以缓解句子嵌入忽略动态线索的问题,并提出了分层动态感知模块来有效地捕捉不同时间尺度上的时间信息。
- 其它亮点论文使用对比学习来区分外观相似的物体的运动,并在五个数据集上取得了最先进的性能,包括在具有挑战性的MeViS数据集上取得了惊人的9.2% J&F改进。研究者还提供了代码。
- 最近的相关研究包括:1. 'Referring Video Segmentation via Language-guided Graph Attention Networks';2. 'Referring Video Segmentation via Dynamic Language-guided Graph Attention Networks';3. 'Referring Video Segmentation via Graph Attention and Dynamic Labeling'。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流