Vlogger: Make Your Dream A Vlog

2024年01月17日
  • 简介
    本文提出了Vlogger,一种通用的AI系统,用于生成用户描述的一分钟级别的视频博客(即vlog)。与几秒钟的短视频不同,vlog通常包含具有多样化场景的复杂故事情节,这对大多数现有的视频生成方法来说是具有挑战性的。为了突破这一瓶颈,我们的Vlogger巧妙地利用大型语言模型(LLM)作为导演,并将vlog的长视频生成任务分解为四个关键阶段,其中我们调用各种基础模型来扮演vlog专业人员的关键角色,包括(1)脚本,(2)演员,(3)ShowMaker和(4)Voicer。通过这样一种模仿人类的设计,我们的Vlogger可以通过自上而下的规划和自下而上的拍摄来生成vlog。此外,我们引入了一种新颖的视频扩散模型ShowMaker,它在我们的Vlogger中充当摄影师,用于生成每个拍摄场景的视频片段。通过注意脚本和演员作为文本和视觉提示,它可以有效地增强片段的时空连贯性。此外,我们为ShowMaker设计了一种简洁的混合训练范式,提高了它在T2V生成和预测方面的能力。最后,广泛的实验表明,我们的方法在零-shot T2V生成和预测任务上实现了最先进的性能。更重要的是,Vlogger可以从开放世界的描述中生成超过5分钟的vlogs,而不会丢失脚本和演员的视频连贯性。代码和模型都可在https://github.com/zhuangshaobin/Vlogger上找到。
  • 作者讲解·1
  • 图表
  • 解决问题
    Vlogger试图解决什么问题?
  • 关键思路
    Vlogger通过将视频生成任务分解为四个关键阶段并利用大型语言模型,模拟人类的工作流程来生成vlog。
  • 其它亮点
    Vlogger使用了ShowMaker模型作为摄影师,通过结合Script和Actor的提示来增强视频场景的时空连贯性。同时,Vlogger设计了一个简洁的混合训练范式来提高ShowMaker的能力。实验结果表明,Vlogger在零样本T2V生成和预测任务方面表现出色。
  • 相关研究
    与Vlogger相关的研究包括视频生成和大型语言模型应用。其中一些研究论文包括:1. 'Video Generation from Text' (P. Vougioukas等,2019) 2. 'Large Scale Language Modeling: Converging on 40 Years of Shrinking' (T. Brown等,2020)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问