Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

简介

我们提出了一种方法，可以通过即时合成的城市规模场景生成长序列的街景视图。我们的生成是基于语言输入（例如城市名称、天气），以及包含所需轨迹的底层地图/布局。与最近的视频生成或3D视图合成模型相比，我们的方法可以扩展到跨越数个城市街区的更长距离摄像机轨迹，同时保持视觉质量和一致性。为了实现这一目标，我们借鉴了最近的视频扩散工作，使用自回归框架，可以轻松扩展到长序列。特别是，我们引入了一种新的时间插值方法，可以防止我们的自回归方法从现实城市图像的分布中漂移。我们使用来自Google Street View的引人注目的数据姿态图像和上下文地图数据来训练我们的Streetscapes系统，这使用户可以生成基于任何所需城市布局的城市景观视图，并具有可控的相机姿势。请访问我们的项目页面https://boyangdeng.com/streetscapes了解更多结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过语言输入和地图布局生成街景视频，解决长距离摄像机轨迹生成的问题。
关键思路

论文采用基于自回归模型的视频扩散方法，结合新的时间插值方法，生成高质量的街景视频。
其它亮点

论文使用Google街景图像和地图数据进行训练，可以生成任意城市布局的街景视频。实验结果表明，该方法可以生成长达数个街区的街景视频，同时保持视觉质量和一致性。论文提供了开源代码和项目页面。
相关研究

最近的相关研究包括视频生成和3D视图合成。

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

提问交流

提问交流