A Unified CPU-GPU Protocol for GNN Training

2024年03月25日
  • 简介
    在大规模图上训练图神经网络(GNN)模型需要高强度的数据通信和计算。虽然现有的先进CPU和GPU具有高计算能力,但现有GNN框架采用的标准GNN训练协议不能高效地利用平台资源。因此,我们提出了一种新的统一CPU-GPU协议,可以提高CPU-GPU平台上GNN训练的资源利用率。统一CPU-GPU协议在CPU和GPU上并行实例化多个GNN训练过程。通过将CPU上的训练进程分配到GPU上协同进行GNN训练,所提出的协议可以提高平台资源利用率并减少CPU-GPU数据传输开销。由于CPU和GPU的性能不同,我们开发了一种新的负载均衡器,在运行时动态平衡CPU和GPU之间的工作负载。我们使用两个代表性的GNN采样算法,在三个数据集上评估了我们的协议。与现有GNN框架采用的标准训练协议相比,我们的协议有效地提高了资源利用率和整体训练时间。在GPU略微优于CPU的平台上,我们的协议可以将GNN训练加速1.41倍。在GPU明显优于CPU的平台上,我们的协议可以将GNN训练加速1.26倍。我们的协议是开源的,可以无缝地集成到现有的GNN框架中,加速GNN训练。我们的协议特别适用于由于高需求而受限于GPU访问的用户。
  • 图表
  • 解决问题
    论文试图解决在大规模图上训练GNN模型时,数据通信和计算量过大的问题,提高CPU-GPU平台资源利用率。
  • 关键思路
    论文提出了一种新的统一CPU-GPU协议,通过在CPU和GPU上并行实例化多个GNN训练进程来提高平台资源利用率,并减少CPU-GPU数据传输开销。同时,开发了一个动态负载均衡器,平衡CPU和GPU之间的工作负载。
  • 其它亮点
    论文通过在三个数据集上使用两种代表性的GNN采样算法和两种广泛使用的GNN模型,评估了新协议的性能。结果表明,相较于现有GNN框架中采用的标准训练协议,该协议有效提高了资源利用率和整体训练时间,尤其对于GPU资源受限的情况下更为明显。此外,该协议已开源,可无缝集成到现有GNN框架中。
  • 相关研究
    在此领域中,最近的相关研究包括《Deep Graph Library: A Graph-Centric, Highly-Performant Package for Graph Neural Networks》和《PyTorch Geometric: A Library for Deep Learning on Graphs》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论