Towards Precise Scaling Laws for Video Diffusion Transformers

2024年11月25日
  • 简介
    在给定的数据和计算预算内实现视频扩散变压器的最佳性能至关重要,因为它们的训练成本很高。这需要在大规模训练之前精确确定最佳模型规模和训练超参数。尽管在语言模型中使用了扩展定律来预测性能,但在视觉生成模型中,这些定律的存在及其准确推导仍鲜有研究。在本文中,我们系统地分析了视频扩散变压器的扩展定律,并确认了它们的存在。此外,我们发现与语言模型不同,视频扩散模型对学习率和批量大小这两个通常未被精确建模的超参数更为敏感。为了解决这一问题,我们提出了一种新的扩展定律,该定律可以预测任何模型规模和计算预算下的最优超参数。在这些最优设置下,我们在计算预算为1e10 TFlops的情况下,与传统扩展方法相比,实现了相当的性能并减少了40.1%的推理成本。此外,我们建立了验证损失、任意模型规模和计算预算之间更通用和精确的关系。这使得可以在非最优模型规模下进行性能预测,这在实际推理成本限制下也可能具有吸引力,从而实现更好的权衡。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决视频扩散变换器在给定的数据和计算预算下达到最优性能的问题。由于训练成本高昂,需要在大规模训练前精确确定最优模型大小和训练超参数。这是一个重要的问题,因为目前在视觉生成模型中,缩放定律的存在和准确推导尚未得到充分探索。
  • 关键思路
    论文的关键思路是系统地分析视频扩散变换器的缩放定律,并确认其存在。与语言模型不同,视频扩散模型对学习率和批量大小更敏感。因此,作者提出了一种新的缩放定律,可以预测任何模型大小和计算预算下的最优超参数。这一方法在相同的计算预算下,不仅能够实现可比的性能,还能减少40.1%的推理成本。
  • 其它亮点
    论文通过系统性的实验验证了新的缩放定律的有效性,并在1e10 TFlops的计算预算下展示了显著的性能提升和成本节约。此外,作者还建立了验证损失、模型大小和计算预算之间的更一般化和精确的关系,这使得即使在非最优模型大小下也能预测性能,从而实现更好的权衡。论文提供了详细的实验设计和数据集信息,但未提及是否开源代码。
  • 相关研究
    近期在该领域的一些相关研究包括: - 'Scaling Laws for Autoregressive Generative Modeling' (2021) - 探讨了自回归生成模型中的缩放定律。 - 'On the Scaling Laws of Transformer Models for Language and Vision' (2022) - 研究了Transformer模型在语言和视觉任务中的缩放规律。 - 'Efficient Training of Video Diffusion Models with Adaptive Learning Rates' (2023) - 提出了自适应学习率方法来提高视频扩散模型的训练效率。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问