- 简介这篇文章介绍了时空场景图的概念,它通过将场景分解为单独的对象及其时间上的关系,来表示视频中的交互。长期地预测对象之间细粒度的关系是一个具有挑战性的问题。因此,作者提出了场景图预测(SGA)的任务。作者将最先进的场景图生成方法作为基线,用于预测对象之间未来的关系,并提出了一种新的方法SceneSayer。在SceneSayer中,作者利用基于对象的关系表示来推理观察到的视频帧,并对对象之间的关系演化进行建模。作者采用连续时间的观点,分别使用神经ODE和神经SDE的概念来建模对象交互演化的潜在动态。作者分别通过解决ODE和SDE来推断未来关系的表示。在Action Genome数据集上的大量实验证明了所提出方法的有效性。
-
- 图表
- 解决问题本论文旨在解决视频中对象之间长期预测细粒度关系的问题,提出了场景图预测(SGA)任务。
- 关键思路论文提出了一种名为SceneSayer的新方法,利用对象为中心的关系表示来推理观察到的视频帧,并使用NeuralODE和NeuralSDE的概念分别建模对象交互的潜在动态演变。
- 其它亮点论文在Action Genome数据集上进行了广泛的实验,证明了所提出方法的有效性。此外,论文还与现有的场景图生成方法进行了比较,并开源了代码。
- 在相关研究方面,最近的研究包括《Spatio-Temporal Graph Structure Learning for Video Action Detection》和《Video Action Transformer Network》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流