Comp4D: LLM-Guided Compositional 4D Scene Generation

向作者提问

NEW

简介

最近，二维和三维内容创作的扩散模型的进步引发了对于生成四维内容的浓厚兴趣。然而，三维场景数据集的稀缺限制了当前方法主要局限于以对象为中心的生成。为了克服这个限制，我们提出了Comp4D，一种新颖的组合式四维生成框架。与传统方法生成整个场景的单一四维表示不同，Comp4D创新性地分别构建了场景中的每个四维对象。该框架利用大型语言模型（LLMs），首先将输入的文本提示分解为不同的实体，并映射它们的轨迹。然后，它通过准确地沿着指定的路径定位这些对象来构建组合式四维场景。为了优化场景，我们的方法采用组合式评分蒸馏技术，通过预定义的轨迹，利用在文本到图像、文本到视频和文本到三维领域预训练的扩散模型。广泛的实验表明，与先前的方法相比，我们拥有出色的四维内容创作能力，展示了卓越的视觉质量、运动保真度和增强的物体交互。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

Comp4D: Compositional 4D Generation via Large Language Models论文旨在解决3D场景数据集稀缺的问题，提出了一种创新的基于大型语言模型的组合式4D生成框架。
关键思路

Comp4D框架通过将输入文本提示分解为不同的实体，并将它们的轨迹映射出来，然后分别构建每个4D对象，最后将它们准确地定位在指定的路径上，从而实现了组合式4D生成。
其它亮点

论文使用了大型语言模型，通过预训练的扩散模型进行得分蒸馏，实现了对组合式4D场景的精细调整，从而达到了优秀的视觉质量、动作保真度和增强的物体交互效果。此外，论文还进行了广泛的实验，并展示了与现有方法相比的优越性。
相关研究

最近的相关研究包括：《4D Compositional Scene Generation with Positional Encodings》、《4D Object Generation with a Functionally-aware Generative Model》、《4D Video Generation with a Few Keyframes and Motion Dynamics》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问