- 简介训练大型深度学习模型需要并行化技术来进行扩展。在现有的方法中,如数据并行或ZeRO-DP,微批次数据被并行处理,这会产生两个缺点:模型激活所需的总内存在前向传递结束时达到峰值,并且在反向传播步骤结束时必须同时平均梯度。我们提出了循环数据并行,这是一种新的范式,将微批次的执行从同时变为顺序执行,并具有统一的延迟。以轻微的梯度延迟为代价,激活所需的总内存是恒定的,并且在训练步骤期间平衡了梯度通信。在模型并行化的情况下,我们的技术通过在微批次之间共享GPU来减少所需的GPU数量。在ZeRO-DP框架内,我们的技术允许使用点对点操作而不是集体广播操作来通信模型状态。我们在CIFAR-10和ImageNet数据集上展示了我们方法的优势。
-
- 图表
- 解决问题解决问题:论文提出了一种新的并行化技术——Cyclic Data Parallelism,旨在解决当前数据并行化方法中存在的内存峰值和梯度平均的问题。
- 关键思路关键思路:将微批次数据的处理方式从同时并行变为顺序并行,并采用统一的延迟,以减少激活值所需的总内存,并在训练步骤中平衡梯度通信。
- 其它亮点其他亮点:该技术可与模型并行技术相结合,减少所需的GPU数量;在ZeRO-DP框架中,该技术允许使用点对点操作而不是集体广播操作进行模型状态的通信;实验表明,该技术在CIFAR-10和ImageNet数据集上表现出色。
- 相关研究:当前领域中的其他相关研究包括Data Parallelism和ZeRO-DP等并行化技术。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流