- 简介本文介绍了MotionBooth,这是一个创新的框架,旨在通过精确控制物体和相机运动来为定制化的主题制作动画。通过利用一个特定物体的几张图片,我们有效地微调了一个文本到视频模型,以准确捕捉物体的形状和属性。我们的方法采用主题区域损失和视频保留损失来增强主题的学习性能,同时还使用主题令牌交叉注意力损失来将定制主题与运动控制信号集成在一起。此外,我们还提出了用于管理推理期间主题和相机运动的无需训练的技术。特别地,我们利用交叉注意力图像操作来控制主题运动,并引入了一种新的潜在偏移模块来控制相机运动。MotionBooth在同时控制生成视频中的运动并保持主题外观方面表现出色。广泛的定量和定性评估证明了我们方法的优越性和有效性。我们的项目页面位于https://jianzongwu.github.io/projects/motionbooth。
- 图表
- 解决问题MotionBooth旨在解决如何精确控制自定义对象和相机移动的动画问题。具体而言,它试图通过利用少量的对象图像,训练一个文本到视频模型来捕捉对象的形状和属性,同时提高学习性能。
- 关键思路MotionBooth提出了一种新颖的框架,利用少量的对象图像,通过fine-tune文本到视频模型来生成自定义对象的动画,并通过主题区域损失和视频保留损失来提高学习性能。此外,MotionBooth还提出了一种无需训练的方法来控制对象和相机运动,在推理过程中使用交叉注意力映射操作来控制对象运动,并引入了一种新颖的潜在移位模块来控制相机运动。
- 其它亮点论文通过对大量的定量和定性实验进行评估,证明了MotionBooth在保留对象外观的同时,能够精确控制生成视频中的运动。MotionBooth的项目页面提供了开源代码和可供使用的数据集。
- 最近的相关研究包括:1. VideoBERT: A Joint Model for Video and Language Representation Learning; 2. Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills; 3. Learning to Navigate the Energy Landscape.
沙发等你来抢
去评论
评论
沙发等你来抢