DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework

2024年08月21日
  • 简介
    目前的视频生成模型在创建短小逼真的片段方面表现出色,但在处理更长、多场景的视频方面却存在困难。我们介绍了一种名为\texttt{DreamFactory}的基于LLM的框架来解决这个挑战。 \texttt{DreamFactory}利用多智能体协作原则和关键帧迭代设计方法,确保长视频的一致性和风格。它利用思维链(COT)来解决大型语言模型固有的不确定性。 \texttt{DreamFactory}生成了长、风格连贯且复杂的视频。评估这些长格式视频是一项挑战。我们提出了新颖的指标,如跨场景人脸距离分数和跨场景风格一致性分数。为了进一步研究这个领域,我们贡献了包含150多个人工评分视频的多场景视频数据集。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决当前视频生成模型在生成长、多场景视频方面的困难,提出了一种名为 DreamFactory 的基于 LLM 的框架。
  • 关键思路
    DreamFactory 利用多智能体协作原则和关键帧迭代设计方法,利用思维链(COT)解决大型语言模型固有的不确定性,从而生成长、风格连贯、复杂的视频。
  • 其它亮点
    论文提出了新的视频评估指标,如跨场景人脸距离分数和跨场景风格一致性分数。同时,还贡献了包含150多个人工评定视频的多场景视频数据集。
  • 相关研究
    最近的相关研究包括:《Video Generation with Recurrent Adversarial Networks》、《Long Video Generation via Multimodal Hierarchical Pre-training》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问