- 简介最近,自定义文本到图像(T2I)模型取得了巨大的进展,特别是在个性化、风格化和有条件生成等领域。然而,将这一进展扩展到视频生成仍处于萌芽阶段,主要原因是缺乏定制化的视频数据。在这项工作中,我们介绍了Still-Moving,这是一个新颖的通用框架,用于定制文本到视频(T2V)模型,无需任何定制化的视频数据。该框架适用于突出T2V设计的情况,其中视频模型是在文本到图像(T2I)模型的基础上构建的(例如,通过膨胀)。我们假设可以访问T2I模型的定制版本,该模型仅在静态图像数据上进行训练(例如,使用DreamBooth或StyleDrop)。将定制的T2I模型的权重直接插入T2V模型中通常会导致显著的伪影或无法充分遵循定制化数据。为了解决这个问题,我们训练了轻量级的空间适配器,调整注入的T2I层产生的特征。重要的是,我们的适配器是在由定制T2I模型生成的图像样本构成的“静态视频”(即重复图像)上进行训练的。这种训练是通过一种新颖的运动适配器模块实现的,该模块允许我们在保留视频模型的运动先验的同时,在这些静态视频上进行训练。在测试时,我们移除运动适配器模块,只保留训练好的空间适配器。这恢复了T2V模型的运动先验,同时遵循定制T2I模型的空间先验。我们在个性化、风格化和有条件生成等各种任务中展示了我们方法的有效性。在所有评估的场景中,我们的方法无缝地将定制T2I模型的空间先验与T2V模型提供的运动先验相结合。
-
- 图表
- 解决问题解决问题:本论文旨在解决文本到视频(T2V)模型中的个性化、风格化和条件生成等问题。同时,该论文提出了一种新的通用框架Still-Moving,用于定制T2V模型,而无需定制视频数据。
- 关键思路关键思路:论文提出了一种轻量级的空间适配器(Spatial Adapters)来调整由注入的T2I层产生的特征,以适应定制T2I模型的空间先验。为了克服这个问题,论文还提出了一种新的Motion Adapter模块,使我们能够在保留视频模型的运动先验的同时,在静态视频上进行训练。测试时,去除Motion Adapter模块,只保留训练好的Spatial Adapters,从而恢复T2V模型的运动先验,同时遵循定制T2I模型的空间先验。
- 其它亮点其他亮点:论文在多个任务上进行了实验验证,包括个性化、风格化和条件生成等。实验结果表明,该方法无缝地将定制T2I模型的空间先验与T2V模型的运动先验相结合。此外,论文还使用了一些开源数据集,并提供了开源代码。
- 相关研究:最近的相关研究包括文本到图像(T2I)模型的个性化、风格化和条件生成等方面的研究,如StyleDrop和DreamBooth。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流