HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting

简介

这篇文章探讨了基于RGB图像的城市场景的整体理解是一个具有挑战性但重要的问题。它包括了对几何和外观的理解，以实现新视角合成、语义标签解析和移动物体跟踪。尽管已经取得了相当大的进展，但现有方法通常只关注该任务的特定方面，并需要额外的输入，例如LiDAR扫描或手动注释的3D边界框。在本文中，我们介绍了一种新的流程，利用3D高斯喷洒来实现整体城市场景理解。我们的主要思想是使用静态和动态3D高斯的组合，通过物理约束来规范移动物体姿态，联合优化几何、外观、语义和运动。我们的方法提供了实时渲染新视角的能力，产生高精度的2D和3D语义信息，并重建动态场景，即使在3D边界框检测非常嘈杂的情况下。在KITTI、KITTI-360和Virtual KITTI 2上的实验结果证明了我们的方法的有效性。
图表
解决问题

本文旨在通过综合利用几何、外观、语义和运动信息，使用3D高斯点阵技术实现对城市场景的全面理解，包括新视角合成、语义标签解析和动态场景重建等问题。
关键思路

本文提出了一种新的管道，利用静态和动态3D高斯点阵的组合，通过物理约束对移动物体姿态进行规范化，联合优化几何、外观、语义和运动，实现城市场景的全面理解。
其它亮点

本文的亮点在于：1.能够实时渲染新视角，提供高精度的2D和3D语义信息；2.即使在3D边界框检测噪声较大的情况下，也能够重建动态场景；3.在KITTI、KITTI-360和Virtual KITTI 2数据集上进行了实验验证，证明了本方法的有效性。
相关研究

与本文相关的研究包括使用LiDAR扫描或手动注释的3D边界框的方法，以及其他基于点云的方法，如PointNet和PointRCNN。

HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting

评论