Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression

2024年07月05日
  • 简介
    DLRM是一种先进的推荐系统模型,已经在各种行业应用中得到了广泛的应用。然而,DLRM模型的巨大规模需要使用多个设备/GPUs进行高效训练。这个过程中的一个重要瓶颈是耗时的全对全通信,需要从所有设备收集嵌入数据。为了缓解这个问题,我们引入了一种方法,采用误差有界的有损压缩来减少通信数据大小,加速DLRM的训练。我们开发了一种新颖的误差有界有损压缩算法,通过对嵌入数据特征的深入分析,实现了高压缩比。此外,我们引入了一个双层自适应策略来调整误差界限,涵盖表格和迭代两个方面,以平衡压缩效益和对准确性的潜在影响。我们还针对GPU上的PyTorch张量优化了我们的压缩器,最小化了压缩开销。评估结果表明,我们的方法在最小影响准确性的情况下,实现了1.38倍的训练加速。
  • 图表
  • 解决问题
    DLRM模型的训练需要使用多个设备/GPUs,但是all-to-all通信非常耗时,如何解决这个问题?
  • 关键思路
    使用基于误差界限的有损压缩来减少通信数据大小,加速DLRM训练。提出了一种新的误差界限自适应调整策略,平衡压缩效果和精度影响。
  • 其它亮点
    论文提出了一种新的有损压缩算法,实现了高压缩比;提出了误差界限自适应调整策略,平衡了压缩效果和精度影响;优化了PyTorch张量在GPU上的压缩效率;实验结果表明,该方法在最小精度影响的情况下,实现了1.38倍的训练加速。
  • 相关研究
    相关研究包括但不限于:《Deep Learning Recommendation Model for Personalization and Recommendation Systems》、《Scaling Distributed Machine Learning with the Parameter Server》、《Communication-Efficient Distributed Machine Learning with the Parameter Server》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论