- 简介随着文本条件扩散模型(DM)在图像、视频和3D生成方面取得突破,研究社区的关注点已经转向了更具挑战性的任务——文本到4D合成,这引入了时间维度来生成动态3D对象。在这种情况下,我们确定了评分蒸馏采样(SDS)作为文本到3D合成的广泛使用技术,由于其双面性和纹理不真实问题以及高计算成本,成为文本到4D性能的重要障碍。在本文中,我们提出了基于像素级对齐的文本到4D高斯喷溅(PLA4D)方法,它利用文本到视频帧作为显式像素对齐目标来生成静态3D对象并注入运动。具体来说,我们引入了焦点对齐来校准渲染的相机姿态,引入了GS-Mesh对比学习来从像素级的渲染图像对比中提取几何先验。此外,我们使用变形网络实现运动对齐,以驱动高斯变化,并实现参考细化以获得平滑的4D物体表面。这些技术使得4D高斯喷溅能够在像素级别上与生成的视频对齐几何、纹理和运动。与以前的方法相比,PLA4D在更短的时间内产生了更好的纹理细节合成输出,并有效地缓解了双面问题。PLA4D完全使用开源模型实现,为4D数字内容创作提供了一个可访问、用户友好和有前途的方向。我们的项目页面:\href{https://github.com/MiaoQiaowei/PLA4D.github.io}{https://github.com/MiaoQiaowei/PLA4D.github.io}。
-
- 图表
- 解决问题论文旨在解决文本到4D合成的问题,即在生成动态3D对象时引入时间维度。具体而言,作者提出了一种新的方法来解决Score Distillation Sampling (SDS)在文本到4D合成中存在的问题。
- 关键思路本文提出了Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D)方法,该方法利用文本到视频帧作为显式像素对齐目标来生成静态3D对象并注入运动。该方法包括Focal Alignment、GS-Mesh Contrastive Learning、Motion Alignment和Reference Refinement等技术,使4D Gaussian Splatting能够在像素级别上将几何、纹理和运动与生成的视频对齐。
- 其它亮点PLA4D方法相比之前的方法,能够在更短的时间内产生具有更好纹理细节的合成输出,并有效地缓解了Janus-faced问题。该方法完全使用开源模型实现,提供了一个易于使用和有前途的4D数字内容创建方向。作者还提供了开源代码和实验数据集。
- 最近的相关研究包括文本到3D合成和文本到视频合成。其中一些论文包括《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》和《Video Generation from Text》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流