SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model

2024年05月31日
  • 简介
    虽然AI生成的内容已经引起了相当的关注,但实现逼真的视频合成仍然是一个巨大的挑战。尽管扩散模型在视频生成质量方面取得了有希望的进展,但复杂的模型架构和庞大的计算需求对于训练和推理都会造成重大的差距,使得这些模型与实际应用之间存在显著的差距。本文提出了SNED,一种用于高效视频扩散模型的叠加网络架构搜索方法。我们的方法采用超级网络训练范式,使用权重共享方法针对各种模型成本和分辨率选项进行训练。此外,我们还提出了超级网络训练采样热身方法,以进行快速训练优化。为展示我们方法的灵活性,我们进行了包括像素空间和潜空间视频扩散模型在内的实验。结果表明,我们的框架在不同的模型选项上始终以高效的方式产生可比较的结果。根据像素空间视频扩散模型的实验结果,我们可以同时在64 x 64到256 x 256分辨率范围内实现一致的视频生成结果,并使用从640M到1.6B个参数的大范围模型大小。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:该论文旨在解决视频合成中的高计算需求和复杂模型架构问题,提出了一种高效的视频扩散模型超级网络架构搜索方法(SNED)
  • 关键思路
    关键思路:该方法采用超级网络训练范式,通过权重共享方法针对各种模型成本和分辨率选项进行训练,以及提出超级网络训练采样预热以实现快速训练优化
  • 其它亮点
    其他亮点:该方法展示了其灵活性,涉及像素空间和潜空间视频扩散模型的实验,并证明了其在不同模型选项下高效产生可比较的结果。此外,实验结果显示,该方法可以在像素空间视频扩散模型中实现从64 x 64到256 x 256分辨率的一致视频生成结果,模型大小范围从640M到1.6B个参数。
  • 相关研究
    相关研究:最近的相关研究包括《Generative Models for Effective ML on Private, Decentralized Datasets》、《Video Generation from Text》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问