SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

2024年03月18日
  • 简介
    我们提出了一种稳定的视频3D(SV3D)——一种潜在的视频扩散模型,用于高分辨率、图像到多视角生成围绕3D物体的轨道视频。最近的3D生成工作提出了将2D生成模型用于新视角合成(NVS)和3D优化的技术。然而,这些方法由于视角有限或NVS不一致而存在一些缺点,从而影响了3D对象生成的性能。在这项工作中,我们提出了SV3D,它采用图像到视频扩散模型进行新的多视角合成和3D生成,从而利用视频模型的泛化和多视角一致性,同时进一步添加了显式的相机控制用于NVS。我们还提出了改进的3D优化技术,以使用SV3D及其NVS输出进行图像到3D生成。在多个数据集上进行的广泛实验结果,包括2D和3D指标以及用户研究,证明了SV3D在NVS以及3D重建方面相对于之前的工作具有最先进的性能。
  • 图表
  • 解决问题
    本文旨在解决3D对象生成中视角受限和不一致的问题,提出了一种基于图像到视频扩散模型的稳定视频3D(SV3D)方法,用于高分辨率、图像到多视图的轨道视频生成。
  • 关键思路
    SV3D采用了图像到视频扩散模型进行多视图合成和3D生成,并加入了显式的相机控制,以提高新视角合成的准确性和一致性。同时,还提出了改进的3D优化技术,利用SV3D和其新视角合成输出进行图像到3D生成。
  • 其它亮点
    实验结果表明,SV3D在多个数据集上的2D和3D评估指标以及用户研究中都表现出了优异的性能。此外,论文还开源了代码。
  • 相关研究
    近期的相关研究包括:《Learning to Generate 3D Meshes with Generative Adversarial Networks》、《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论