Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

简介

本文研究了基于自然语言表达的视频分割，通常强调运动线索，以识别和分割物体。以往的方法将句子作为一个整体，在视频级别直接执行识别，混淆了静态图像级别线索和时间运动线索。然而，图像级别特征不能很好地理解句子中的运动线索，静态线索对于时间感知并不重要。实际上，静态线索有时会通过掩盖运动线索来干扰时间感知。因此，本文提出将视频级别的指代表达理解分解为静态和运动感知，并特别强调增强时间理解。首先，我们引入了一个表达解耦模块，使静态线索和运动线索发挥各自的作用，缓解了句子嵌入忽略运动线索的问题。其次，我们提出了一个分层运动感知模块，有效地捕捉了不同时间尺度上的时间信息。此外，我们采用对比学习来区分视觉上相似物体的运动。这些贡献在包括具有挑战性的MeViS数据集在内的五个数据集上产生了最先进的性能，其中MeViS数据集的$\mathcal{J\&F}$指标有显著的$\textbf{9.2%}$提高。代码可在https://github.com/heshuting555/DsHmp上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视频分割中自然语言表述的问题，尤其是在强调动态线索方面，通过将视频级别的表述理解分解为静态和动态感知来增强时间感知。
关键思路

论文的关键思路是通过引入表达解耦模块来区分静态线索和动态线索的不同作用，以缓解句子嵌入忽略动态线索的问题，并提出了分层动态感知模块来有效地捕捉不同时间尺度上的时间信息。
其它亮点

论文使用对比学习来区分外观相似的物体的运动，并在五个数据集上取得了最先进的性能，包括在具有挑战性的MeViS数据集上取得了惊人的9.2% J&F改进。研究者还提供了代码。
相关研究

最近的相关研究包括：1. 'Referring Video Segmentation via Language-guided Graph Attention Networks'；2. 'Referring Video Segmentation via Dynamic Language-guided Graph Attention Networks'；3. 'Referring Video Segmentation via Graph Attention and Dynamic Labeling'。

Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

提问交流

提问交流