- 简介我们生活在一个三维空间中,同时通过第四维时间向前移动。为了让人工智能能够全面理解这样一个四维环境,我们介绍了4D全景场景图(PSG-4D),这是一种新的表示方法,可以连接动态的4D世界中感知到的原始视觉数据和高层次的视觉理解。具体来说,PSG-4D将丰富的4D感官数据抽象成节点,代表具有精确位置和状态信息的实体,以及边缘,捕捉时间关系。为了促进这个新领域的研究,我们构建了一个丰富的PSG-4D数据集,包括3K个RGB-D视频,总共有1M帧,每个帧都带有4D全景分割掩模以及精细的动态场景图标签。为了解决PSG-4D,我们提出了PSG4DFormer,这是一种基于Transformer的模型,可以预测全景分割掩模,沿时间轴跟踪掩模,并通过关系组件生成相应的场景图。对新数据集的广泛实验表明,我们的方法可以作为未来PSG-4D研究的强大基线。最后,我们提供了一个真实世界的应用示例,展示了如何通过将大型语言模型集成到我们的PSG-4D系统中来实现动态场景理解。
- 图表
- 解决问题本文旨在解决动态4D环境下的场景理解问题,提出了一种新的场景图表示方法PSG-4D,以及一个丰富注释的数据集,用于促进该领域的研究。
- 关键思路PSG-4D将丰富的4D感知数据抽象成节点和边的形式,节点代表具有精确位置和状态信息的实体,边捕捉时间关系。文章提出了一种基于Transformer的模型PSG4DFormer,可以预测全景分割掩模,沿时间轴跟踪掩模,并通过关系组件生成相应的场景图。
- 其它亮点文章提出了一种新的场景图表示方法PSG-4D,构建了一个丰富注释的数据集,用于促进该领域的研究。实验表明,PSG4DFormer模型在该数据集上表现良好,可以作为未来研究的强有力基线。文章还提供了一个实际应用示例,展示了如何通过将大型语言模型集成到PSG-4D系统中来实现动态场景理解。
- 在该领域的相关研究包括:《A Survey of Scene Graph Generation》、《Panoptic Feature Pyramid Networks for Dense Per-Pixel Labeling》、《Temporal Cycle-Consistency Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢