- 简介最近的文本生成技术可以利用预先训练的文本到视频模型来合成动态的3D场景。然而,现有的运动表示方法,如变形模型或时间依赖的神经表示,受到能够生成的运动量的限制,它们不能合成超出体积渲染边界框远的运动。缺乏更灵活的运动模型是4D生成方法和最近的接近照片般逼真的视频生成模型之间现实主义差距的一个原因。在这里,我们提出了TC4D:轨迹条件的文本到4D生成,将运动分解为全局和局部组成部分。我们使用样条参数化的刚性变换表示场景边界框的全局运动轨迹。我们学习符合全局轨迹的局部变形,使用文本到视频模型的监督。我们的方法使得可以沿任意轨迹合成场景,组合式场景生成,以及显著提高了生成运动的逼真程度和数量,我们通过定性评估和用户研究进行了评估。视频结果可以在我们的网站上查看:https://sherwinbahmani.github.io/tc4d。
- 图表
- 解决问题论文旨在解决文本到4D生成中存在的运动模型受限问题,提出了一种基于轨迹的文本到4D生成方法,使得生成的场景可以沿着任意轨迹运动。
- 关键思路该方法将运动分为全局和局部两个部分,全局运动使用样条函数参数化轨迹来表示场景的边界框的刚体变换,局部运动通过文本到视频模型的监督来学习符合全局轨迹的局部变形。
- 其它亮点该方法可以合成沿任意轨迹运动的场景,提高了生成运动的逼真度和数量,实验结果表明该方法的有效性。论文还提供了视频结果和开源代码。
- 目前在文本到4D生成领域,已有一些基于运动模型的方法,如变形模型和时变神经表示法。同时,近期在视频生成领域也出现了一些逼真度较高的模型,如StyleGAN2和Taming Transformers。
沙发等你来抢
去评论
评论
沙发等你来抢