- 简介本报告介绍了Wan,这是一套全面且开放的视频基础模型集合,旨在推动视频生成技术的边界。Wan基于主流的扩散变换器范式构建,并通过一系列创新实现了生成能力的重大突破,这些创新包括我们提出的新型VAE、可扩展的预训练策略、大规模数据整理以及自动评估指标。这些贡献共同提升了模型的性能和灵活性。具体来说,Wan具有以下四个关键特点: **领先性能**:Wan的140亿参数模型在包含数十亿图像和视频的大规模数据集上进行训练,展示了视频生成在数据量和模型规模方面的扩展规律。在多个内部和外部基准测试中,该模型始终优于现有的开源模型以及最先进的商业解决方案,展现出显著的性能优势。 **全面性**:Wan提供了两个高效且强大的模型,分别拥有13亿和140亿参数,分别侧重于效率和效果。它还涵盖了多种下游应用,包括图像到视频转换、指令引导的视频编辑以及个性化视频生成,总共支持多达八项任务。 **消费级效率**:13亿参数的模型表现出卓越的资源效率,仅需8.19 GB显存,能够与广泛的消费级GPU兼容。 **开放性**:我们开源了整个Wan系列,包括源代码和所有模型,以促进视频生成社区的发展。这种开放性旨在显著拓展行业中视频制作的创意可能性,并为学术界提供高质量的视频基础模型。所有代码和模型均可在以下地址获取:https://github.com/Wan-Video/Wan2.1。
- 图表
- 解决问题该论文试图解决视频生成领域的性能与效率问题,尤其是在大规模数据和模型参数对生成质量的影响方面。此外,还探索了如何通过开源方式推动社区在视频生成技术上的进步。这是一个具有挑战性的问题,但并非全新的问题,因为已有许多研究关注于视频生成的性能优化。
- 关键思路Wan的关键思路是基于扩散变压器范式,结合一系列创新技术,如新型VAE、可扩展的预训练策略、大规模数据整理以及自动化评估指标,来提升视频生成模型的能力。相比当前领域,Wan不仅提供了两种不同规模的模型(1.3B和14B参数),以满足效率和效果的不同需求,还验证了数据量和模型规模对视频生成能力的影响规律。
- 其它亮点论文的亮点包括:1)14B参数的大规模模型在多个基准测试中显著优于现有的开源和商业解决方案;2)1.3B的小型模型具备极高的资源效率,仅需8.19GB VRAM即可运行,适配消费级硬件;3)支持多种下游任务,例如图像到视频转换、指令引导的视频编辑和个人化视频生成;4)完全开源,包含代码和所有模型,促进了社区的发展。实验设计涵盖了内部和外部基准测试,并使用了数十亿张图片和视频的数据集。代码已托管在GitHub上,供进一步研究和应用。
- 近期相关研究包括:1)Google的Phenaki项目,探索文本到视频生成;2)Meta的Make-A-Video,专注于高质量视频生成;3)Runway的Gen-2模型,提供多模态内容生成能力;4)Microsoft的VQ-Diffusion,研究基于矢量量化扩散模型的视频生成。这些研究共同推动了视频生成技术的进步,但Wan的独特之处在于其全面性和开放性。
沙发等你来抢
去评论
评论
沙发等你来抢