- 简介近期视频生成领域的进展主要由扩散模型和自回归框架推动,但在协调提示遵循性、视觉质量、运动动态和时长方面仍存在关键挑战:为提升时间维度上的视觉质量而牺牲运动动态、为优先保证分辨率而限制视频时长(5-10秒),以及由于通用多模态大语言模型(MLLM)无法理解电影语法(如镜头构图、演员表情和摄像机运动)而导致的镜头感知生成能力不足。这些相互交织的局限性阻碍了长篇写实合成和专业电影风格生成的发展。为解决这些问题,我们提出了SkyReels-V2,一种无限时长的电影生成模型,该模型通过整合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散引导框架来实现协同优化。首先,我们设计了一种全面的视频结构化表示方法,将多模态LLM提供的通用描述与子专家模型生成的详细镜头语言相结合。借助人工标注,我们进一步训练了一个统一的视频字幕生成器,命名为SkyCaptioner-V1,以高效标注视频数据。其次,我们建立了渐进分辨率的预训练体系用于基础视频生成,并在此基础上进行了四阶段的后训练增强:初始的概念平衡监督微调(SFT)提升了基线质量;针对运动特性的强化学习(RL)训练,结合人工标注和合成失真数据,解决了动态伪影问题;我们的扩散引导框架采用非递减噪声调度,实现了在高效搜索空间中的长视频合成;最后的高质量SFT进一步优化了视觉保真度。所有代码和模型均可在 https://github.com/SkyworkAI/SkyReels-V2 获取。
- 图表
- 解决问题该论文试图解决视频生成领域中的几个关键问题,包括如何在生成过程中平衡提示遵循、视觉质量、运动动态和视频时长。此外,还探讨了如何通过多模态大语言模型(MLLM)理解电影语法(如镜头构图、演员表情和摄像机动态),以实现更逼真的长视频合成和专业电影风格的生成。这是一个具有挑战性的问题,尤其是针对无限长度的高质量视频生成。
- 关键思路SkyReels-V2 提出了一个综合框架,结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来解决上述问题。其核心创新点在于:1)设计了一种结构化的视频表示方法,将 MLLM 的通用描述与子专家模型的详细镜头语言相结合;2)引入 SkyCaptioner-V1 统一视频标注工具,利用人工注释高效标记数据;3)采用渐进分辨率预训练和四阶段后训练增强策略,分别优化基础质量、动态伪影、长视频合成效率和视觉保真度。
- 其它亮点论文的亮点包括:1)提出了一种新颖的扩散强迫框架,通过非递减噪声调度实现高效的长视频合成;2)使用强化学习处理动态伪影问题,显著提升运动一致性;3)实验设计全面,涵盖了从低分辨率到高分辨率的逐步优化过程;4)所有代码和模型均已开源,便于研究者复现和改进;5)未来可进一步探索更高分辨率的长视频生成以及对复杂场景的支持。
- 近年来,视频生成领域的相关工作主要包括:1)基于扩散模型的方法,例如 Video Diffusion Models 和 Text-to-Video Synthesis;2)自回归框架的研究,如 VQ-VAE 和 Transformer-based 视频生成;3)多模态融合技术,例如 CLIP-guided 视频生成和 Mixture-of-Experts 模型;4)强化学习在视频生成中的应用,如 MotionGAN 和 RL-based 视频编辑。此外,还有其他关于电影语法建模的工作,例如 Cinematic Grammar Learning 和 Shot-aware Video Generation。
沙发等你来抢
去评论
评论
沙发等你来抢