Perseus: Removing Energy Bloat from Large Model Training

简介

使用许多GPU训练大型AI模型会消耗大量能源。我们观察到，并非所有在训练期间消耗的能源都直接有助于端到端的训练吞吐量，其中相当大的一部分可以被消除而不会减慢训练速度，我们称之为能源膨胀。在这项工作中，我们确定了大型模型训练中两个独立的能源膨胀来源，即内在和外在，并提出了Perseus，一种统一的优化框架来缓解这两种膨胀。Perseus使用高效的迭代图割算法获取任何大型模型训练作业的“迭代时间-能量”Pareto前沿，并安排其前向和反向计算的能量消耗，以消除内在和外在的能源膨胀。对GPT-3和Bloom等大型模型的评估表明，Perseus将大型模型训练的能源消耗降低了多达30％，从而实现了以前无法实现的节省。
图表
解决问题

减少大型AI模型训练的能源消耗，提高能源利用率。
关键思路

通过Perseus框架，识别大型模型训练中的内在和外在能源浪费，并使用基于图割的算法调度前向和反向计算的能源消耗，以减少能源浪费。
其它亮点

Perseus框架成功减少了大型模型训练的能源消耗，使能源利用率提高了30%；在GPT-3和Bloom等大型模型上进行了评估；使用了基于图割的算法来获取任何大型模型训练作业的“迭代时间-能源”Pareto前沿。
相关研究

在大型模型训练领域，还有一些相关的研究，如Energy-aware Computing for Deep Learning: A Survey和Towards Energy-Efficient Deep Neural Network Training: A Review等。

Perseus: Removing Energy Bloat from Large Model Training

评论