InstructVideo: Instructing Video Diffusion Models with Human Feedback

向作者提问

NEW

简介

扩散模型已成为视频生成的事实范式。然而，它们依赖于不同质量的网络规模数据，往往会产生外观不佳且与文本提示不符的结果。为了解决这个问题，我们提出了InstructVideo，通过奖励微调使用人类反馈来指导文本到视频扩散模型。InstructVideo有两个关键要素：1）为了改善通过完整DDIM采样链生成所引起的奖励微调成本，我们将奖励微调重新定义为编辑。通过利用扩散过程来破坏采样视频，InstructVideo仅需要对DDIM采样链进行部分推理，从而降低微调成本并提高微调效率。2）为了缓解缺乏专门的视频奖励模型来反映人类偏好的问题，我们重新利用已建立的图像奖励模型，如HPSv2。为此，我们提出了分段视频奖励机制，基于分段稀疏采样提供奖励信号，以及时间衰减奖励方法，在微调过程中减轻时间建模的退化。广泛的实验，包括定性和定量实验，验证了在InstructVideo中使用图像奖励模型的实用性和有效性，显著提高了生成视频的视觉质量，同时不影响泛化能力。代码和模型将公开发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

InstructVideo论文试图通过人类反馈来指导文本到视频扩散模型，以解决当前依赖于大规模数据的视频生成模型在视觉效果和文本提示方面不佳的问题。
关键思路

InstructVideo的关键思路是将奖励微调转化为编辑，通过利用扩散过程来破坏采样视频，从而减少微调成本，提高微调效率，并利用已有的图像奖励模型来提供奖励信号。
其它亮点

论文提出了Segmental Video Reward和Temporally Attenuated Reward两种方法来对图像奖励模型进行转化，以便在视频生成过程中使用。实验结果表明，使用InstructVideo可以显著提高生成视频的视觉质量，并且不会影响其泛化能力。论文还提供了代码和模型。
相关研究

最近的相关研究包括：《Learning to Generate Videos with FiLM》、《Few-Shot Video-to-Video Synthesis》、《Text-Based Editing of Talking-Head Video》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问