Still-Moving: Customized Video Generation without Customized Video Data

向作者提问

NEW

简介

最近，自定义文本到图像（T2I）模型取得了巨大的进展，特别是在个性化、风格化和有条件生成等领域。然而，将这一进展扩展到视频生成仍处于萌芽阶段，主要原因是缺乏定制化的视频数据。在这项工作中，我们介绍了Still-Moving，这是一个新颖的通用框架，用于定制文本到视频（T2V）模型，无需任何定制化的视频数据。该框架适用于突出T2V设计的情况，其中视频模型是在文本到图像（T2I）模型的基础上构建的（例如，通过膨胀）。我们假设可以访问T2I模型的定制版本，该模型仅在静态图像数据上进行训练（例如，使用DreamBooth或StyleDrop）。将定制的T2I模型的权重直接插入T2V模型中通常会导致显著的伪影或无法充分遵循定制化数据。为了解决这个问题，我们训练了轻量级的空间适配器，调整注入的T2I层产生的特征。重要的是，我们的适配器是在由定制T2I模型生成的图像样本构成的“静态视频”（即重复图像）上进行训练的。这种训练是通过一种新颖的运动适配器模块实现的，该模块允许我们在保留视频模型的运动先验的同时，在这些静态视频上进行训练。在测试时，我们移除运动适配器模块，只保留训练好的空间适配器。这恢复了T2V模型的运动先验，同时遵循定制T2I模型的空间先验。我们在个性化、风格化和有条件生成等各种任务中展示了我们方法的有效性。在所有评估的场景中，我们的方法无缝地将定制T2I模型的空间先验与T2V模型提供的运动先验相结合。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

解决问题：本论文旨在解决文本到视频(T2V)模型中的个性化、风格化和条件生成等问题。同时，该论文提出了一种新的通用框架Still-Moving，用于定制T2V模型，而无需定制视频数据。
关键思路

关键思路：论文提出了一种轻量级的空间适配器(Spatial Adapters)来调整由注入的T2I层产生的特征，以适应定制T2I模型的空间先验。为了克服这个问题，论文还提出了一种新的Motion Adapter模块，使我们能够在保留视频模型的运动先验的同时，在静态视频上进行训练。测试时，去除Motion Adapter模块，只保留训练好的Spatial Adapters，从而恢复T2V模型的运动先验，同时遵循定制T2I模型的空间先验。
其它亮点

其他亮点：论文在多个任务上进行了实验验证，包括个性化、风格化和条件生成等。实验结果表明，该方法无缝地将定制T2I模型的空间先验与T2V模型的运动先验相结合。此外，论文还使用了一些开源数据集，并提供了开源代码。
相关研究

相关研究：最近的相关研究包括文本到图像(T2I)模型的个性化、风格化和条件生成等方面的研究，如StyleDrop和DreamBooth。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问