Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role Labeling

解决问题:本文旨在解决视频语义角色标注(VidSRL)中存在的空间场景感知和时间建模不足的问题。作者提出了一种基于动态场景图结构的全面时空场景图表示方法,并构建了一个针对特定场景的VidSRL框架。

关键思路:本文的关键思路是提出了一种全面时空场景图(HostSG)表示方法,该方法可以很好地模拟视频的细粒度空间语义和时间动态,并将其应用于VidSRL任务中。作者还设计了一种场景-事件映射机制,将底层场景结构与高层事件语义结构联系起来,构建了一个层次化的场景-事件(ICE)图结构,并通过迭代结构优化来优化ICE图的整体结构表示,以最好地满足任务需求。

其他亮点:本文在基准数据集上的实验结果表明,该框架显著提高了当前最佳性能模型的表现。作者还对其方法的优势进行了深入的分析,包括模型的可解释性和有效性。此外,本文还提供了开源代码和使用的数据集。

关于作者:本文的主要作者包括赵宇、费浩、曹一新、李波波、张梅山、魏建国和张敏,他们分别来自新加坡国立大学、东南大学、南京邮电大学和华为技术有限公司。赵宇之前的代表作包括“Multi-View Harmonized Bilinear Network for 3D Object Recognition”和“Learning Context Graph for Person Retrieval”,费浩之前的代表作包括“Learning to Learn from Weak Supervision by Full Supervision”和“Few-Shot Learning with Global Class Representations”。其他作者也有丰富的研究经验和代表作。

相关研究:近期其他相关的研究包括:“Video Semantic Role Labeling using Relational Reasoning Networks”(作者:Jiawei Wu等,机构:加州大学伯克利分校)、“Temporal Convolutional Networks for Action Segmentation and Detection”(作者:Colin Lea等,机构:麻省理工学院)和“3D Convolutional Neural Networks for Efficient and Robust Hand Pose Estimation from Single Depth Images”(作者:Xinghao Chen等,机构:香港中文大学)。

论文摘要:这篇论文主要介绍了一种用于视频语义角色标注的全面时空场景图构建方法。视频语义角色标注旨在通过识别预测参数事件结构和事件之间的相互关系,从给定的视频中检测显著事件。尽管最近有一些方法被提出用于视频语义角色标注,但它们往往存在两个主要缺点,包括缺乏细粒度的空间场景感知和不充分的视频时间建模。为了解决这些问题,本文基于现有的动态场景图结构探索了一种新颖的全面时空场景图(称为HostSG)表示方法,该方法很好地模拟了视频的细粒度空间语义和时间动态。在HostSG的基础上,我们提出了一个针对特定任务的视频语义角色标注框架。首先设计了一种场景-事件映射机制,以弥合底层场景结构和高级事件语义结构之间的差距,从而形成一个整体分层场景-事件(ICE)图结构。我们进一步执行迭代结构优化,以优化ICE图,使整体结构表示最好地符合任务需求。最后,联合解码了视频语义角色标注的三个子任务,其中端到端的范式有效地避免了错误传播。在基准数据集上,我们的框架显著提高了当前最佳性能模型。此外,还展示了更好地理解我们方法进步的进一步分析。

内容中包含的图片若涉及版权问题,请及时与我们联系删除