Parcae: Proactive, Liveput-Optimized DNN Training on Preemptible Instances

向作者提问

NEW

简介

本文旨在通过利用现代云计算中的可抢占实例来降低深度神经网络（DNN）的训练成本，这些实例在空闲时可以以更低的价格分配，但可能随时被云提供商抢占。之前的工作支持在可抢占实例上进行DNN训练，采用一种反应性方法来处理实例抢占和分配，但仅能实现有限的性能和可扩展性。本文提出了Parcae，这是一个系统，通过预测资源变化来主动调整DNN训练作业的并行化策略，以适应实例抢占和分配之前的情况，从而显著降低处理这些事件的成本。Parcae优化了liveput，这是一种衡量DNN作业在各种可能的抢占情况下预期训练吞吐量的新指标。与现有的反应性、吞吐量优化系统相比，Parcae的主动、实时优化解决方案考虑了作业的吞吐量和在抢占情况下的鲁棒性。为了优化liveput，Parcae支持轻量级实例迁移，并使用可用性预测器预测未来的抢占情况。然后，它使用liveput优化器在预测的抢占情况下发现最佳的DNN训练并行化策略。我们在各种DNN和抢占跟踪上评估了Parcae，并展示了Parcae比现有的点实例DNN训练系统表现更好，性能提高了10倍。更重要的是，Parcae在频繁抢占的情况下实现了近乎最优的大型DNN训练性能，而现有的方法在这种情况下无法取得任何进展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过利用现代云上的可抢占实例，以降低DNN训练成本。同时，通过预测资源变化来主动调整DNN训练作业的并行化策略，以适应实例抢占和分配前的情况，从而显著降低处理这些事件的成本。
关键思路

Parcae是一个系统，它通过优化liveput指标来实现在可抢占实例上进行便宜、快速和可扩展的DNN训练。Parcae支持轻量级实例迁移和使用可用性预测器来预测未来的抢占，然后使用liveput优化器来发现在预测的抢占下并行化DNN训练的最佳策略。
其它亮点

该论文的亮点包括：Parcae相比现有的反应式系统在吞吐量和抗抢占性能方面都有所提高；Parcae在各种DNN和抢占跟踪上进行了评估，并表明Parcae的性能优于现有的基于spot-instance的DNN训练系统；Parcae在处理频繁抢占的大型DNN训练时表现出接近最优的性能。
相关研究

最近的相关研究包括：使用可抢占实例进行DNN训练的反应式系统。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问