- 简介本文旨在通过利用现代云计算中的可抢占实例来降低深度神经网络(DNN)的训练成本,这些实例在空闲时可以以更低的价格分配,但可能随时被云提供商抢占。之前的工作支持在可抢占实例上进行DNN训练,采用一种反应性方法来处理实例抢占和分配,但仅能实现有限的性能和可扩展性。本文提出了Parcae,这是一个系统,通过预测资源变化来主动调整DNN训练作业的并行化策略,以适应实例抢占和分配之前的情况,从而显著降低处理这些事件的成本。Parcae优化了liveput,这是一种衡量DNN作业在各种可能的抢占情况下预期训练吞吐量的新指标。与现有的反应性、吞吐量优化系统相比,Parcae的主动、实时优化解决方案考虑了作业的吞吐量和在抢占情况下的鲁棒性。为了优化liveput,Parcae支持轻量级实例迁移,并使用可用性预测器预测未来的抢占情况。然后,它使用liveput优化器在预测的抢占情况下发现最佳的DNN训练并行化策略。我们在各种DNN和抢占跟踪上评估了Parcae,并展示了Parcae比现有的点实例DNN训练系统表现更好,性能提高了10倍。更重要的是,Parcae在频繁抢占的情况下实现了近乎最优的大型DNN训练性能,而现有的方法在这种情况下无法取得任何进展。
-
- 图表
- 解决问题本论文旨在通过利用现代云上的可抢占实例,以降低DNN训练成本。同时,通过预测资源变化来主动调整DNN训练作业的并行化策略,以适应实例抢占和分配前的情况,从而显著降低处理这些事件的成本。
- 关键思路Parcae是一个系统,它通过优化liveput指标来实现在可抢占实例上进行便宜、快速和可扩展的DNN训练。Parcae支持轻量级实例迁移和使用可用性预测器来预测未来的抢占,然后使用liveput优化器来发现在预测的抢占下并行化DNN训练的最佳策略。
- 其它亮点该论文的亮点包括:Parcae相比现有的反应式系统在吞吐量和抗抢占性能方面都有所提高;Parcae在各种DNN和抢占跟踪上进行了评估,并表明Parcae的性能优于现有的基于spot-instance的DNN训练系统;Parcae在处理频繁抢占的大型DNN训练时表现出接近最优的性能。
- 最近的相关研究包括:使用可抢占实例进行DNN训练的反应式系统。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流