HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives

2025年10月23日
  • 简介
    目前最先进的文本生成视频模型虽然在生成独立片段方面表现出色,却难以创作出连贯的、包含多个镜头的叙事内容,而后者正是讲故事的核心所在。我们提出了HoloCine模型,通过整体化地生成整段场景,从第一个镜头到最后一个镜头确保全局一致性,从而弥合这一“叙事鸿沟”。我们的架构采用一种窗口交叉注意力机制,将文本提示精准定位到特定镜头,实现精细的导演级控制;同时,采用稀疏的跨镜头自注意力模式(镜头内部密集,镜头之间稀疏),保证了分钟级视频生成所需的计算效率。除了在叙事连贯性方面树立新的最先进水平外,HoloCine还展现出显著的 emergent 能力:对人物和场景具有持续的记忆力,并能直观理解电影拍摄技巧。我们的研究标志着从片段合成向自动化电影制作的关键转变,使端到端的电影创作成为可实现的未来。我们的代码已公开发布于:https://holo-cine.github.io/。
  • 作者讲解
  • 图表
  • 解决问题
    现有的文本到视频生成模型擅长生成孤立的视频片段,但在生成连贯的多镜头叙事场景方面表现不足,缺乏全局一致性和电影级叙事能力。如何实现端到端的、具有叙事连贯性的长时视频生成是一个尚未充分解决的新问题。
  • 关键思路
    HoloCine提出了一种整体化生成机制,通过Window Cross-Attention将文本提示精准定位到特定镜头,结合Sparse Inter-Shot Self-Attention模式(镜头内密集、镜头间稀疏),在保证生成效率的同时实现跨镜头的全局一致性,从而实现对完整场景的连贯生成。这一架构实现了从片段合成到自动化电影制作的范式转变。
  • 其它亮点
    HoloCine展现出强大的涌现能力,包括角色与场景的持久记忆、对运镜、转场等电影技法的直觉理解。实验设计覆盖分钟级长视频生成,在叙事连贯性上超越现有SOTA模型。作者已开源代码:https://holo-cine.github.io/,为后续研究提供了重要基础。未来可深入探索其记忆机制、导演风格控制及与剧本结构的结合。
  • 相关研究
    1. Make-A-Video: Text-to-Video Generation without Text-Video Data 2. Phenaki: Variable Length Video Generation from Story-Pivots 3. VideoPoet: A Large Language Model for Zero-Shot Video Generation 4. Dreamix: Real-Time Panoramic Video Generation with LLM-Based Scene Pivoting 5. Gen1: A Generalist Vision-Language-Action Model for Embodied Tasks
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问