STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians

简介

近年来，在预训练扩散模型和三维生成方面取得的进展引发了对四维内容创作的兴趣。然而，实现具有时空一致性的高保真度四维生成仍然是一个挑战。在这项工作中，我们提出了STAG4D，这是一个新颖的框架，将预训练的扩散模型与动态三维高斯喷洒结合起来，实现高保真度的四维生成。受到三维生成技术的启发，我们利用多视角扩散模型初始化多视角图像，锚定输入视频帧，其中视频可以是真实世界捕获的，也可以是由视频扩散模型生成的。为了确保多视角序列初始化的时间一致性，我们引入了一种简单而有效的融合策略，利用第一帧作为自我关注计算中的时间锚点。在几乎一致的多视角序列的基础上，我们然后应用得分蒸馏采样来优化四维高斯点云。四维高斯喷洒是专门为生成任务设计的，提出了一种自适应密实化策略，以减轻不稳定的高斯梯度，实现鲁棒优化。值得注意的是，所提出的流程不需要对扩散网络进行任何预训练或微调，为四维生成任务提供了更易于访问和实用的解决方案。广泛的实验表明，我们的方法在渲染质量、时空一致性和生成鲁棒性方面优于先前的四维生成工作，为从文本、图像和视频等多种输入中生成四维内容设定了新的技术水平。
图表
解决问题

本论文旨在解决4D内容生成中空间-时间一致性的问题，提出了一种新的框架STAG4D。
关键思路

论文的关键思路是将预训练扩散模型与动态3D高斯喷洒相结合，利用多视角扩散模型初始化多视角图像，然后采用得分蒸馏采样优化4D高斯点云。
其它亮点

论文的亮点包括提出了一种新的框架STAG4D，不需要对扩散网络进行预训练或微调；提出了一种自适应稠密化策略，以缓解不稳定的高斯梯度；在多个数据集上进行了广泛的实验，并且在4D生成方面取得了最新的最佳性能。
相关研究

最近在这个领域中，还有一些相关的研究，例如“4D视频生成中的高效空间-时间一致性”和“4D物体重建与动态场景生成”等研究。

STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians

评论