Sparse MTTKRP Acceleration for Tensor Decomposition on GPU

2024年05月14日
  • 简介
    本文提出了一种基于GPU的算法设计,以解决加速稀疏张量分解的瓶颈核心——稀疏矩阵化张量乘积Khatri-Rao积(spMTTKRP)计算中的关键挑战,包括(1)消除GPU线程块之间的全局原子操作,(2)避免GPU线程块和GPU全局内存之间的中间值通信,以及(3)确保工作负载在GPU线程块之间的平衡分配。我们的方法还支持动态张量重映射,使上述优化适用于输入张量的所有模式。与最先进的GPU实现相比,我们的方法在广泛使用的数据集中实现了总执行时间的几何平均加速比为1.5倍、2.0倍和21.7倍。我们的工作是唯一支持模式大于4的张量的GPU实现,因为最先进的工作对于具有大量模式的张量有实现限制。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决稀疏张量分解中的瓶颈问题,即Sparse Matricized Tensor Times Khatri-Rao Product (spMTTKRP)的计算速度问题,同时支持动态张量重映射。
  • 关键思路
    该论文提出了一种基于GPU的算法设计,解决了加速spMTTKRP计算的关键挑战,包括消除GPU线程块之间的全局原子操作、避免GPU线程块和GPU全局内存之间的中间值通信以及确保负载均衡。
  • 其它亮点
    该方法支持动态张量重映射,实现了几何平均速度提高1.5倍、2.0倍和21.7倍,相对于现有GPU实现,跨多个数据集的总执行时间。该方法是唯一支持大于4个模式的张量的GPU实现,因为现有的作品对具有大量模式的张量有实现限制。
  • 相关研究
    在这个领域的相关研究中,最近的一些论文包括:《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems》、《Efficient Sparse Tensor Operations for Deep Learning》、《Parallelizing Tensor Operations with Multiple GPUs》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问