Vlogger: Make Your Dream A Vlog

简介

本文提出了Vlogger，一种通用的AI系统，用于生成用户描述的一分钟级别的视频博客（即vlog）。与几秒钟的短视频不同，vlog通常包含具有多样化场景的复杂故事情节，这对大多数现有的视频生成方法来说是具有挑战性的。为了突破这一瓶颈，我们的Vlogger巧妙地利用大型语言模型（LLM）作为导演，并将vlog的长视频生成任务分解为四个关键阶段，其中我们调用各种基础模型来扮演vlog专业人员的关键角色，包括（1）脚本，（2）演员，（3）ShowMaker和（4）Voicer。通过这样一种模仿人类的设计，我们的Vlogger可以通过自上而下的规划和自下而上的拍摄来生成vlog。此外，我们引入了一种新颖的视频扩散模型ShowMaker，它在我们的Vlogger中充当摄影师，用于生成每个拍摄场景的视频片段。通过注意脚本和演员作为文本和视觉提示，它可以有效地增强片段的时空连贯性。此外，我们为ShowMaker设计了一种简洁的混合训练范式，提高了它在T2V生成和预测方面的能力。最后，广泛的实验表明，我们的方法在零-shot T2V生成和预测任务上实现了最先进的性能。更重要的是，Vlogger可以从开放世界的描述中生成超过5分钟的vlogs，而不会丢失脚本和演员的视频连贯性。代码和模型都可在https://github.com/zhuangshaobin/Vlogger上找到。

作者讲解·1

讲解视频
相关报道(1)

图表

解决问题

Vlogger试图解决什么问题？

关键思路

Vlogger通过将视频生成任务分解为四个关键阶段并利用大型语言模型，模拟人类的工作流程来生成vlog。

其它亮点

Vlogger使用了ShowMaker模型作为摄影师，通过结合Script和Actor的提示来增强视频场景的时空连贯性。同时，Vlogger设计了一个简洁的混合训练范式来提高ShowMaker的能力。实验结果表明，Vlogger在零样本T2V生成和预测任务方面表现出色。

提问交流

提问交流