4D Panoptic Scene Graph Generation

简介

我们生活在一个三维空间中，同时通过第四维时间向前移动。为了让人工智能能够全面理解这样一个四维环境，我们介绍了4D全景场景图（PSG-4D），这是一种新的表示方法，可以连接动态的4D世界中感知到的原始视觉数据和高层次的视觉理解。具体来说，PSG-4D将丰富的4D感官数据抽象成节点，代表具有精确位置和状态信息的实体，以及边缘，捕捉时间关系。为了促进这个新领域的研究，我们构建了一个丰富的PSG-4D数据集，包括3K个RGB-D视频，总共有1M帧，每个帧都带有4D全景分割掩模以及精细的动态场景图标签。为了解决PSG-4D，我们提出了PSG4DFormer，这是一种基于Transformer的模型，可以预测全景分割掩模，沿时间轴跟踪掩模，并通过关系组件生成相应的场景图。对新数据集的广泛实验表明，我们的方法可以作为未来PSG-4D研究的强大基线。最后，我们提供了一个真实世界的应用示例，展示了如何通过将大型语言模型集成到我们的PSG-4D系统中来实现动态场景理解。
图表
解决问题

本文旨在解决动态4D环境下的场景理解问题，提出了一种新的场景图表示方法PSG-4D，以及一个丰富注释的数据集，用于促进该领域的研究。
关键思路

PSG-4D将丰富的4D感知数据抽象成节点和边的形式，节点代表具有精确位置和状态信息的实体，边捕捉时间关系。文章提出了一种基于Transformer的模型PSG4DFormer，可以预测全景分割掩模，沿时间轴跟踪掩模，并通过关系组件生成相应的场景图。
其它亮点

文章提出了一种新的场景图表示方法PSG-4D，构建了一个丰富注释的数据集，用于促进该领域的研究。实验表明，PSG4DFormer模型在该数据集上表现良好，可以作为未来研究的强有力基线。文章还提供了一个实际应用示例，展示了如何通过将大型语言模型集成到PSG-4D系统中来实现动态场景理解。
相关研究

在该领域的相关研究包括：《A Survey of Scene Graph Generation》、《Panoptic Feature Pyramid Networks for Dense Per-Pixel Labeling》、《Temporal Cycle-Consistency Learning》等。

4D Panoptic Scene Graph Generation

评论