Towards Scene Graph Anticipation

简介

这篇文章介绍了时空场景图的概念，它通过将场景分解为单独的对象及其时间上的关系，来表示视频中的交互。长期地预测对象之间细粒度的关系是一个具有挑战性的问题。因此，作者提出了场景图预测（SGA）的任务。作者将最先进的场景图生成方法作为基线，用于预测对象之间未来的关系，并提出了一种新的方法SceneSayer。在SceneSayer中，作者利用基于对象的关系表示来推理观察到的视频帧，并对对象之间的关系演化进行建模。作者采用连续时间的观点，分别使用神经ODE和神经SDE的概念来建模对象交互演化的潜在动态。作者分别通过解决ODE和SDE来推断未来关系的表示。在Action Genome数据集上的大量实验证明了所提出方法的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频中对象之间长期预测细粒度关系的问题，提出了场景图预测（SGA）任务。
关键思路

论文提出了一种名为SceneSayer的新方法，利用对象为中心的关系表示来推理观察到的视频帧，并使用NeuralODE和NeuralSDE的概念分别建模对象交互的潜在动态演变。
其它亮点

论文在Action Genome数据集上进行了广泛的实验，证明了所提出方法的有效性。此外，论文还与现有的场景图生成方法进行了比较，并开源了代码。
相关研究

在相关研究方面，最近的研究包括《Spatio-Temporal Graph Structure Learning for Video Action Detection》和《Video Action Transformer Network》等。

Towards Scene Graph Anticipation

提问交流

提问交流