Perseus: Removing Energy Bloat from Large Model Training

2023年12月12日
  • 简介
    使用许多GPU训练大型AI模型会消耗大量能源。我们观察到,并非所有在训练期间消耗的能源都直接有助于端到端的训练吞吐量,其中相当大的一部分可以被消除而不会减慢训练速度,我们称之为能源膨胀。在这项工作中,我们确定了大型模型训练中两个独立的能源膨胀来源,即内在和外在,并提出了Perseus,一种统一的优化框架来缓解这两种膨胀。Perseus使用高效的迭代图割算法获取任何大型模型训练作业的“迭代时间-能量”Pareto前沿,并安排其前向和反向计算的能量消耗,以消除内在和外在的能源膨胀。对GPT-3和Bloom等大型模型的评估表明,Perseus将大型模型训练的能源消耗降低了多达30%,从而实现了以前无法实现的节省。
  • 图表
  • 解决问题
    减少大型AI模型训练的能源消耗,提高能源利用率。
  • 关键思路
    通过Perseus框架,识别大型模型训练中的内在和外在能源浪费,并使用基于图割的算法调度前向和反向计算的能源消耗,以减少能源浪费。
  • 其它亮点
    Perseus框架成功减少了大型模型训练的能源消耗,使能源利用率提高了30%;在GPT-3和Bloom等大型模型上进行了评估;使用了基于图割的算法来获取任何大型模型训练作业的“迭代时间-能源”Pareto前沿。
  • 相关研究
    在大型模型训练领域,还有一些相关的研究,如Energy-aware Computing for Deep Learning: A Survey和Towards Energy-Efficient Deep Neural Network Training: A Review等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论