Towards Scene Graph Anticipation

2024年03月07日
  • 简介
    这篇文章介绍了时空场景图的概念,它通过将场景分解为单独的对象及其时间上的关系,来表示视频中的交互。长期地预测对象之间细粒度的关系是一个具有挑战性的问题。因此,作者提出了场景图预测(SGA)的任务。作者将最先进的场景图生成方法作为基线,用于预测对象之间未来的关系,并提出了一种新的方法SceneSayer。在SceneSayer中,作者利用基于对象的关系表示来推理观察到的视频帧,并对对象之间的关系演化进行建模。作者采用连续时间的观点,分别使用神经ODE和神经SDE的概念来建模对象交互演化的潜在动态。作者分别通过解决ODE和SDE来推断未来关系的表示。在Action Genome数据集上的大量实验证明了所提出方法的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决视频中对象之间长期预测细粒度关系的问题,提出了场景图预测(SGA)任务。
  • 关键思路
    论文提出了一种名为SceneSayer的新方法,利用对象为中心的关系表示来推理观察到的视频帧,并使用NeuralODE和NeuralSDE的概念分别建模对象交互的潜在动态演变。
  • 其它亮点
    论文在Action Genome数据集上进行了广泛的实验,证明了所提出方法的有效性。此外,论文还与现有的场景图生成方法进行了比较,并开源了代码。
  • 相关研究
    在相关研究方面,最近的研究包括《Spatio-Temporal Graph Structure Learning for Video Action Detection》和《Video Action Transformer Network》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问