DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework

简介

目前的视频生成模型在创建短小逼真的片段方面表现出色，但在处理更长、多场景的视频方面却存在困难。我们介绍了一种名为\texttt{DreamFactory}的基于LLM的框架来解决这个挑战。 \texttt{DreamFactory}利用多智能体协作原则和关键帧迭代设计方法，确保长视频的一致性和风格。它利用思维链（COT）来解决大型语言模型固有的不确定性。 \texttt{DreamFactory}生成了长、风格连贯且复杂的视频。评估这些长格式视频是一项挑战。我们提出了新颖的指标，如跨场景人脸距离分数和跨场景风格一致性分数。为了进一步研究这个领域，我们贡献了包含150多个人工评分视频的多场景视频数据集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决当前视频生成模型在生成长、多场景视频方面的困难，提出了一种名为 DreamFactory 的基于 LLM 的框架。
关键思路

DreamFactory 利用多智能体协作原则和关键帧迭代设计方法，利用思维链（COT）解决大型语言模型固有的不确定性，从而生成长、风格连贯、复杂的视频。
其它亮点

论文提出了新的视频评估指标，如跨场景人脸距离分数和跨场景风格一致性分数。同时，还贡献了包含150多个人工评定视频的多场景视频数据集。
相关研究

最近的相关研究包括：《Video Generation with Recurrent Adversarial Networks》、《Long Video Generation via Multimodal Hierarchical Pre-training》等。

DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework

提问交流

提问交流