SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

简介

我们提出了稳定的视频4D（SV4D），这是一个潜在的视频扩散模型，用于多帧和多视角一致的动态3D内容生成。与之前依赖于分别训练的视频生成模型和新视角合成的方法不同，我们设计了一个统一的扩散模型，用于生成动态3D对象的新视角视频。具体而言，给定一个单目参考视频，SV4D为每个视频帧生成新视角，这些新视角在时间上是一致的。然后，我们使用生成的新视角视频来高效地优化隐式4D表示（动态NeRF），而无需使用大多数先前工作中使用的繁琐的SDS优化。为了训练我们的统一新视角视频生成模型，我们从现有的Objaverse数据集中筛选了一个动态3D对象数据集。多个数据集和用户研究的广泛实验结果表明，与先前的工作相比，SV4D在新视角视频合成以及4D生成方面具有最先进的性能。
图表
解决问题

论文旨在设计一种统一的扩散模型，生成动态三维对象的新视角视频，同时通过生成的新视角视频有效地优化隐式4D表示，从而解决多帧和多视角一致的动态三维内容生成问题。
关键思路

论文提出了一种名为Stable Video 4D（SV4D）的潜在视频扩散模型，通过该模型生成动态三维对象的新视角视频，然后使用生成的视频来优化隐式4D表示，避免使用大多数先前工作中使用的繁琐的SDS优化。
其它亮点

论文使用Objaverse数据集，通过生成的新视角视频来优化隐式4D表示，实验结果表明SV4D在新视角视频合成以及4D生成方面的性能均优于先前的工作。
相关研究

与该论文相关的研究包括：NeRF、SDS、Multiplane Image等。

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

评论