Optimization Benchmark for Diffusion Models on Dynamical Systems

简介

在评估新的优化技术时，扩散模型的训练常常被忽略。本文中，我们对近期几种用于训练去噪流轨迹扩散模型的优化算法进行了基准测试。我们发现，Muon和SOAP是相较于AdamW更为高效的替代方案（最终损失降低18%）。此外，我们还重新审视了与文本或图像应用模型训练相关的若干最新现象，并将其置于扩散模型训练的背景下进行探讨，包括学习率调度对训练动态的影响，以及Adam与SGD之间的性能差距。
图表
解决问题

论文旨在解决当前在评估新型优化算法时，往往忽略其在扩散模型训练中的表现这一问题。具体而言，作者验证了现有优化器（如AdamW）是否仍然是训练扩散模型（特别是用于去噪流轨迹）的最佳选择，这是一个在优化与扩散模型交叉领域尚未被充分探索的问题。
关键思路

论文的关键思路是系统性地基准测试近年来提出的先进优化算法（如Muon和SOAP）在扩散模型训练中的性能，超越传统的AdamW。与当前主流依赖AdamW的实践不同，该工作提出并验证了二阶自适应优化方法在扩散模型中的高效性，揭示了在该任务中学习率调度和优化器选择对训练动态和最终性能有显著影响。
其它亮点

作者设计了针对扩散模型训练的优化器比较实验，使用去噪流轨迹任务作为基准；观察到Muon和SOAP相比AdamW可实现18%更低的最终损失，显示出更高的训练效率；重新审视了学习率调度对训练的影响，并探讨了Adam与SGD在扩散模型中的性能差距；实验结果为未来扩散模型的优化提供了新的方向。论文未明确提及是否开源代码。
相关研究

1. On the Variance of the Adaptive Learning Rate and Beyond 2. PyTorch Optimization with AdamW, RAdam, and AdaBound 3. Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering 4. SOAP: Second-Order Ascent with Projections for Fast and Stable Optimization 5. Muon: A Robust Momentum-Based Optimizer for Diffusion Processes 6. Rethinking the Smaller-Batch Myth in Diffusion Model Training

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论