CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

2025年01月15日
  • 简介
    近年来,3D场景生成受到了越来越多的关注,并取得了显著进展。相比3D场景,4D城市的生成更具挑战性,因为城市中存在结构复杂、视觉多样性丰富的物体(如建筑物和车辆),并且人们对城市环境中失真的敏感度更高。为了解决这些问题,我们提出了CityDreamer4D,这是一种专门用于生成无边界4D城市的组合生成模型。我们的主要见解是:1) 4D城市生成应将动态物体(例如车辆)与静态场景(例如建筑物和道路)分开处理;2) 4D场景中的所有物体都应由不同类型的神经场组成,包括建筑物、车辆和背景物体。具体来说,我们提出了交通场景生成器和无边界布局生成器,利用高度紧凑的鸟瞰图(BEV)表示法生成动态交通场景和静态城市布局。4D城市中的物体通过结合面向背景和面向实例的神经场来生成,涵盖背景物体、建筑物和车辆。为了适应背景物体和实例的不同特性,神经场采用了定制的生成哈希网格和周期性位置嵌入作为场景参数化方法。此外,我们提供了一整套城市生成数据集,包括OSM、Google Earth和CityTopia。OSM数据集提供了多种真实世界的城市布局,而Google Earth和CityTopia数据集则提供了大规模、高质量的城市图像,并附有3D实例标注。借助其组合设计,CityDreamer4D支持一系列下游应用,如实例编辑、城市风格化和城市模拟,同时在生成逼真4D城市方面实现了最先进的性能。
  • 图表
  • 解决问题
    该论文试图解决生成4D城市(即三维空间加上时间维度)的挑战,这是一个比3D场景生成更复杂的问题。由于城市环境中存在结构复杂、视觉多样性高的物体如建筑物和车辆,以及人们对城市环境失真的高度敏感性,使得这一问题尤为棘手。这确实是一个相对较新的问题,特别是在处理动态对象与静态场景分离方面。
  • 关键思路
    论文的关键思路是将4D城市生成分为两个主要部分:1) 动态对象(如车辆)与静态场景(如建筑物和道路)的分离;2) 使用不同类型神经场来组合所有4D场景中的对象。这种分离和组合的方法允许更精确地生成和控制城市环境中的各个元素。此外,通过引入Traffic Scenario Generator和Unbounded Layout Generator,利用紧凑的BEV(鸟瞰图)表示法生成动态交通场景和静态城市布局,进一步提升了模型的表现。
  • 其它亮点
    论文的亮点包括使用定制化的生成哈希网格和周期性位置嵌入作为场景参数化,以适应背景物质和实例的不同特性。此外,作者提供了一套全面的数据集,包括OSM、Google Earth和CityTopia,这些数据集提供了真实世界的布局和大规模高质量的城市图像。该研究还支持多种下游应用,如实例编辑、城市风格化和城市模拟,并在生成逼真的4D城市方面达到了最先进的性能。目前没有提及是否开源代码,但未来可以考虑这一点。
  • 相关研究
    最近在这个领域中,相关研究包括《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》、《Instant-NGP: Multi-Resolution Hash Encoding for Large-Scale High-Fidelity Neural Graphics Primitives》、《GauGAN: Semantic Image Synthesis with Spatially-Adaptive Normalization》等。这些研究主要集中在提高3D场景生成的质量和效率,而CityDreamer4D则进一步扩展到4D城市生成,解决了动态和静态元素结合的难题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论