Accelerating Transformer Pre-Training with 2:4 Sparsity

2024年04月02日
  • 简介
    训练大型Transformer速度缓慢,但最近GPU架构的创新给我们带来了优势。NVIDIA Ampere GPU可以执行细粒度的2:4稀疏矩阵乘法,速度比其密集等效形式快两倍。鉴于这一特性,我们全面研究了在预训练中加速Transformer的前馈网络(FFNs)的可行性。首先,我们定义了一个“翻转率”来监测2:4训练过程的稳定性。利用这个度量标准,我们提出了两种技术来保持准确性:通过在梯度上应用掩码衰减项来修改稀疏精炼的直通估计器,并通过在预训练结束附近进行简单而有效的密集微调程序来增强模型的质量。此外,我们设计了两种有效的技术来实现加速训练:通过卷积计算可转置的2:4掩码,通过减少GPU L2缓存未命中来加速门控激活函数。实验表明,我们方法的组合在不同2:4训练方法的多个Transformer上达到了最佳性能,而在不同形状的Transformer块上可以观察到实际加速。
  • 图表
  • 解决问题
    论文探讨了如何利用NVIDIA Ampere GPUs的优势,加速Transformer的预训练过程。具体来说,论文提出了两种技术来保持准确性,并提出了两种实用的技术来加速训练过程。
  • 关键思路
    论文的关键思路是利用NVIDIA Ampere GPUs的2:4稀疏矩阵乘法的性质,提出了一种加速Transformer预训练的方法。此外,论文还提出了一些技术来保持准确性和加速训练过程。
  • 其它亮点
    论文的实验结果表明,论文提出的方法在多个Transformer上表现最佳,并且可以在不同形状的Transformer块上观察到实际加速。此外,论文还使用了多个数据集进行实验,并开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,《Training GANs with Sparse Data》和《Deep Learning with Sparse Spherical Harmonic Activation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论