- 简介我们提出了一种方法,可以通过即时合成的城市规模场景生成长序列的街景视图。我们的生成是基于语言输入(例如城市名称、天气),以及包含所需轨迹的底层地图/布局。与最近的视频生成或3D视图合成模型相比,我们的方法可以扩展到跨越数个城市街区的更长距离摄像机轨迹,同时保持视觉质量和一致性。为了实现这一目标,我们借鉴了最近的视频扩散工作,使用自回归框架,可以轻松扩展到长序列。特别是,我们引入了一种新的时间插值方法,可以防止我们的自回归方法从现实城市图像的分布中漂移。我们使用来自Google Street View的引人注目的数据姿态图像和上下文地图数据来训练我们的Streetscapes系统,这使用户可以生成基于任何所需城市布局的城市景观视图,并具有可控的相机姿势。请访问我们的项目页面https://boyangdeng.com/streetscapes了解更多结果。
-
- 图表
- 解决问题论文旨在通过语言输入和地图布局生成街景视频,解决长距离摄像机轨迹生成的问题。
- 关键思路论文采用基于自回归模型的视频扩散方法,结合新的时间插值方法,生成高质量的街景视频。
- 其它亮点论文使用Google街景图像和地图数据进行训练,可以生成任意城市布局的街景视频。实验结果表明,该方法可以生成长达数个街区的街景视频,同时保持视觉质量和一致性。论文提供了开源代码和项目页面。
- 最近的相关研究包括视频生成和3D视图合成。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流