- 简介目前的视频生成模型在创建短小逼真的片段方面表现出色,但在处理更长、多场景的视频方面却存在困难。我们介绍了一种名为\texttt{DreamFactory}的基于LLM的框架来解决这个挑战。 \texttt{DreamFactory}利用多智能体协作原则和关键帧迭代设计方法,确保长视频的一致性和风格。它利用思维链(COT)来解决大型语言模型固有的不确定性。 \texttt{DreamFactory}生成了长、风格连贯且复杂的视频。评估这些长格式视频是一项挑战。我们提出了新颖的指标,如跨场景人脸距离分数和跨场景风格一致性分数。为了进一步研究这个领域,我们贡献了包含150多个人工评分视频的多场景视频数据集。
-
- 图表
- 解决问题论文旨在解决当前视频生成模型在生成长、多场景视频方面的困难,提出了一种名为 DreamFactory 的基于 LLM 的框架。
- 关键思路DreamFactory 利用多智能体协作原则和关键帧迭代设计方法,利用思维链(COT)解决大型语言模型固有的不确定性,从而生成长、风格连贯、复杂的视频。
- 其它亮点论文提出了新的视频评估指标,如跨场景人脸距离分数和跨场景风格一致性分数。同时,还贡献了包含150多个人工评定视频的多场景视频数据集。
- 最近的相关研究包括:《Video Generation with Recurrent Adversarial Networks》、《Long Video Generation via Multimodal Hierarchical Pre-training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流