从v1.5开始,PyTorch 自身提供了几种加速分布数据并行的技术,包括分桶梯度(bucketing gradients)、通信重叠计算(overlapping computation with communication)以及跳过梯度同步(skipping gradient synchronization)。相关评估结果显示,在配置正确的情况下,PyTorch分布式数据并行模型可以用256个GPU达到接近线性的可扩展性。本文将介绍流行深度学习框架PyTorch最新版本(v1.5)的分布式数据并行包的设计、实现和评估。

内容中包含的图片若涉及版权问题,请及时与我们联系删除