PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting

2024年05月30日
  • 简介
    随着基于文本的扩散模型在图像、视频和三维生成方面取得突破,研究重点转向更具挑战性的文本到四维合成任务,该任务引入时间维度以生成动态三维物体。在这种情况下,我们确定了分数蒸馏采样(SDS)这一广泛用于文本到三维合成的技术,由于其双面性和纹理不真实问题以及高计算成本,成为影响文本到四维性能的重要障碍。在本文中,我们提出了基于像素级对齐的文本到四维高斯喷洒(PLA4D)方法,该方法利用文本到视频帧作为明确的像素对齐目标,生成静态三维物体并注入运动。具体而言,我们引入了焦点对齐来校准渲染的相机姿态和GS-Mesh对比学习来从渲染图像对比中提取几何先验知识。此外,我们使用变形网络实现了运动对齐,以驱动高斯变化,并实现了参考细化,以获得平滑的四维物体表面。这些技术使得四维高斯喷洒能够在像素级别上将几何、纹理和运动与生成的视频对齐。与以前的方法相比,PLA4D在更短的时间内以更好的纹理细节生成合成输出,并有效地缓解了双面性问题。PLA4D完全使用开源模型实现,为四维数字内容创作提供了一个可访问、用户友好和有前途的方向。我们的项目页面:https://miaoqiaowei.github.io/PLA4D/。
  • 图表
  • 解决问题
    本文旨在解决文本到4D合成的问题,即如何在生成动态3D对象时引入时间维度。
  • 关键思路
    本文提出了一种新方法PLA4D,利用文本到视频帧作为像素对齐目标,以生成静态3D对象并将运动注入其中。具体来说,作者引入了Focal Alignment以校准渲染的相机姿态,使用GS-Mesh Contrastive Learning在像素级别上提取几何先验,并使用变形网络实现Motion Alignment来驱动高斯函数的变化。此外,作者还开发了Reference Refinement来实现平滑的4D物体表面。
  • 其它亮点
    PLA4D相比之前的方法在更短的时间内产生了更好的纹理细节,并有效地缓解了Janus-faced问题。PLA4D是完全使用开源模型实现的,为4D数字内容创作提供了一个可访问、用户友好和有前途的方向。
  • 相关研究
    与此相关的最近研究包括:Text2Scene:Generating 3D Scenes from Text Descriptions、Neural Volumes: Learning Dynamic Renderable Volumes from Images、Text2Shape: Generating Shapes from Natural Language Descriptions with Conditional Generative Adversarial Networks等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论