HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

向作者提问

NEW

简介

目前最先进的文本生成视频模型虽然在生成独立片段方面表现出色，却难以创作出连贯的、包含多个镜头的叙事内容，而后者正是讲故事的核心所在。我们提出了HoloCine模型，通过整体化地生成整段场景，从第一个镜头到最后一个镜头确保全局一致性，从而弥合这一“叙事鸿沟”。我们的架构采用一种窗口交叉注意力机制，将文本提示精准定位到特定镜头，实现精细的导演级控制；同时，采用稀疏的跨镜头自注意力模式（镜头内部密集，镜头之间稀疏），保证了分钟级视频生成所需的计算效率。除了在叙事连贯性方面树立新的最先进水平外，HoloCine还展现出显著的 emergent 能力：对人物和场景具有持续的记忆力，并能直观理解电影拍摄技巧。我们的研究标志着从片段合成向自动化电影制作的关键转变，使端到端的电影创作成为可实现的未来。我们的代码已公开发布于：https://holo-cine.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的文本到视频生成模型擅长生成孤立的视频片段，但在生成连贯的多镜头叙事场景方面表现不足，缺乏全局一致性和电影级叙事能力。如何实现端到端的、具有叙事连贯性的长时视频生成是一个尚未充分解决的新问题。
关键思路

HoloCine提出了一种整体化生成机制，通过Window Cross-Attention将文本提示精准定位到特定镜头，结合Sparse Inter-Shot Self-Attention模式（镜头内密集、镜头间稀疏），在保证生成效率的同时实现跨镜头的全局一致性，从而实现对完整场景的连贯生成。这一架构实现了从片段合成到自动化电影制作的范式转变。
其它亮点

HoloCine展现出强大的涌现能力，包括角色与场景的持久记忆、对运镜、转场等电影技法的直觉理解。实验设计覆盖分钟级长视频生成，在叙事连贯性上超越现有SOTA模型。作者已开源代码：https://holo-cine.github.io/，为后续研究提供了重要基础。未来可深入探索其记忆机制、导演风格控制及与剧本结构的结合。
相关研究

1. Make-A-Video: Text-to-Video Generation without Text-Video Data 2. Phenaki: Variable Length Video Generation from Story-Pivots 3. VideoPoet: A Large Language Model for Zero-Shot Video Generation 4. Dreamix: Real-Time Panoramic Video Generation with LLM-Based Scene Pivoting 5. Gen1: A Generalist Vision-Language-Action Model for Embodied Tasks

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问