- 简介DLRM是一种先进的推荐系统模型,已经在各种行业应用中广泛采用。然而,DLRM模型的大尺寸需要使用多个设备/GPUs进行高效训练。这个过程中的一个重要瓶颈是需要耗费大量时间的全互联通信,以从所有设备收集嵌入数据。为了缓解这个问题,我们引入了一种方法,采用误差有界的有损压缩来减少通信数据大小并加速DLRM训练。我们开发了一种新颖的误差有界有损压缩算法,通过深入分析嵌入数据特征来实现高压缩比。此外,我们引入了一个双层自适应策略来调整误差界限,涵盖表格和迭代两个方面,以平衡压缩效益和对准确性的潜在影响。我们还针对GPU上的PyTorch张量优化了我们的压缩器,最小化了压缩开销。评估结果表明,我们的方法实现了1.38倍的训练加速,同时对准确性的影响很小。
- 图表
- 解决问题DLRM模型在训练时需要使用多个设备/GPUs,但由于需要进行昂贵的全局通信,导致训练速度变慢。本文试图通过使用误差有界的有损压缩来减小通信数据的大小,从而提高DLRM训练的速度。
- 关键思路本文提出了一种误差有界的有损压缩算法,通过深入分析嵌入数据的特征来实现高压缩比。此外,本文还引入了双层自适应策略,以在表格和迭代方面平衡压缩效益和对准确性的潜在影响。最后,本文还对PyTorch张量在GPU上的压缩进行了优化,以最小化压缩开销。
- 其它亮点本文的亮点包括:1. 提出了一种高效的误差有界有损压缩算法,可以在保证一定精度的前提下,显著减小通信数据的大小;2. 引入了双层自适应策略,以平衡压缩效益和对准确性的潜在影响;3. 对PyTorch张量在GPU上的压缩进行了优化,以最小化压缩开销;4. 实验结果表明,本文的方法可以在不影响模型精度的情况下,将训练速度提高1.38倍。
- 最近在这个领域中,还有一些相关的研究,例如:1. Deep Learning Recommendation Model for Personalization and Recommendation Systems (DLRM);2. Accelerating Distributed Deep Learning with Transmitted Error Feedback;3. Communication-Efficient Distributed Optimization of Deep Learning with Error Feedback and Moreau-Yosida Regularization。
沙发等你来抢
去评论
评论
沙发等你来抢