PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

向作者提问

NEW

简介

随着文本条件扩散模型（DM）在图像、视频和3D生成方面取得突破，研究社区的关注点已经转向了更具挑战性的任务——文本到4D合成，这引入了时间维度来生成动态3D对象。在这种情况下，我们确定了评分蒸馏采样（SDS）作为文本到3D合成的广泛使用技术，由于其双面性和纹理不真实问题以及高计算成本，成为文本到4D性能的重要障碍。在本文中，我们提出了基于像素级对齐的文本到4D高斯喷溅（PLA4D）方法，它利用文本到视频帧作为显式像素对齐目标来生成静态3D对象并注入运动。具体来说，我们引入了焦点对齐来校准渲染的相机姿态，引入了GS-Mesh对比学习来从像素级的渲染图像对比中提取几何先验。此外，我们使用变形网络实现运动对齐，以驱动高斯变化，并实现参考细化以获得平滑的4D物体表面。这些技术使得4D高斯喷溅能够在像素级别上与生成的视频对齐几何、纹理和运动。与以前的方法相比，PLA4D在更短的时间内产生了更好的纹理细节合成输出，并有效地缓解了双面问题。PLA4D完全使用开源模型实现，为4D数字内容创作提供了一个可访问、用户友好和有前途的方向。我们的项目页面：\href{https://github.com/MiaoQiaowei/PLA4D.github.io}{https://github.com/MiaoQiaowei/PLA4D.github.io}。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决文本到4D合成的问题，即在生成动态3D对象时引入时间维度。具体而言，作者提出了一种新的方法来解决Score Distillation Sampling (SDS)在文本到4D合成中存在的问题。
关键思路

本文提出了Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D)方法，该方法利用文本到视频帧作为显式像素对齐目标来生成静态3D对象并注入运动。该方法包括Focal Alignment、GS-Mesh Contrastive Learning、Motion Alignment和Reference Refinement等技术，使4D Gaussian Splatting能够在像素级别上将几何、纹理和运动与生成的视频对齐。
其它亮点

PLA4D方法相比之前的方法，能够在更短的时间内产生具有更好纹理细节的合成输出，并有效地缓解了Janus-faced问题。该方法完全使用开源模型实现，提供了一个易于使用和有前途的4D数字内容创建方向。作者还提供了开源代码和实验数据集。
相关研究

最近的相关研究包括文本到3D合成和文本到视频合成。其中一些论文包括《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》和《Video Generation from Text》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问