Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

2024年07月18日
  • 简介
    我们提出了一种方法,可以通过即时合成的城市规模场景生成长序列的街景视图。我们的生成是基于语言输入(例如城市名称、天气),以及包含所需轨迹的底层地图/布局。与最近的视频生成或3D视图合成模型相比,我们的方法可以扩展到跨越数个城市街区的更长距离摄像机轨迹,同时保持视觉质量和一致性。为了实现这一目标,我们借鉴了最近的视频扩散工作,使用自回归框架,可以轻松扩展到长序列。特别是,我们引入了一种新的时间插值方法,可以防止我们的自回归方法从现实城市图像的分布中漂移。我们使用来自Google Street View的引人注目的数据姿态图像和上下文地图数据来训练我们的Streetscapes系统,这使用户可以生成基于任何所需城市布局的城市景观视图,并具有可控的相机姿势。请访问我们的项目页面https://boyangdeng.com/streetscapes了解更多结果。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过语言输入和地图布局生成街景视频,解决长距离摄像机轨迹生成的问题。
  • 关键思路
    论文采用基于自回归模型的视频扩散方法,结合新的时间插值方法,生成高质量的街景视频。
  • 其它亮点
    论文使用Google街景图像和地图数据进行训练,可以生成任意城市布局的街景视频。实验结果表明,该方法可以生成长达数个街区的街景视频,同时保持视觉质量和一致性。论文提供了开源代码和项目页面。
  • 相关研究
    最近的相关研究包括视频生成和3D视图合成。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问