4D Panoptic Scene Graph Generation

Jingkang Yang ,
Jun Cen ,
Wenxuan Peng ,
Shuai Liu ,
Fangzhou Hong ,
Xiangtai Li ,
Kaiyang Zhou ,
Qifeng Chen ,
Ziwei Liu
2024年05月16日
  • 简介
    我们生活在一个三维空间中,同时通过第四维时间向前移动。为了让人工智能能够全面理解这样一个四维环境,我们介绍了4D全景场景图(PSG-4D),这是一种新的表示方法,可以连接动态的4D世界中感知到的原始视觉数据和高层次的视觉理解。具体来说,PSG-4D将丰富的4D感官数据抽象成节点,代表具有精确位置和状态信息的实体,以及边缘,捕捉时间关系。为了促进这个新领域的研究,我们构建了一个丰富的PSG-4D数据集,包括3K个RGB-D视频,总共有1M帧,每个帧都带有4D全景分割掩模以及精细的动态场景图标签。为了解决PSG-4D,我们提出了PSG4DFormer,这是一种基于Transformer的模型,可以预测全景分割掩模,沿时间轴跟踪掩模,并通过关系组件生成相应的场景图。对新数据集的广泛实验表明,我们的方法可以作为未来PSG-4D研究的强大基线。最后,我们提供了一个真实世界的应用示例,展示了如何通过将大型语言模型集成到我们的PSG-4D系统中来实现动态场景理解。
  • 图表
  • 解决问题
    本文旨在解决动态4D环境下的场景理解问题,提出了一种新的场景图表示方法PSG-4D,以及一个丰富注释的数据集,用于促进该领域的研究。
  • 关键思路
    PSG-4D将丰富的4D感知数据抽象成节点和边的形式,节点代表具有精确位置和状态信息的实体,边捕捉时间关系。文章提出了一种基于Transformer的模型PSG4DFormer,可以预测全景分割掩模,沿时间轴跟踪掩模,并通过关系组件生成相应的场景图。
  • 其它亮点
    文章提出了一种新的场景图表示方法PSG-4D,构建了一个丰富注释的数据集,用于促进该领域的研究。实验表明,PSG4DFormer模型在该数据集上表现良好,可以作为未来研究的强有力基线。文章还提供了一个实际应用示例,展示了如何通过将大型语言模型集成到PSG-4D系统中来实现动态场景理解。
  • 相关研究
    在该领域的相关研究包括:《A Survey of Scene Graph Generation》、《Panoptic Feature Pyramid Networks for Dense Per-Pixel Labeling》、《Temporal Cycle-Consistency Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论