A Unified CPU-GPU Protocol for GNN Training

简介

在大规模图上训练图神经网络（GNN）模型需要高强度的数据通信和计算。虽然现有的先进CPU和GPU具有高计算能力，但现有GNN框架采用的标准GNN训练协议不能高效地利用平台资源。因此，我们提出了一种新的统一CPU-GPU协议，可以提高CPU-GPU平台上GNN训练的资源利用率。统一CPU-GPU协议在CPU和GPU上并行实例化多个GNN训练过程。通过将CPU上的训练进程分配到GPU上协同进行GNN训练，所提出的协议可以提高平台资源利用率并减少CPU-GPU数据传输开销。由于CPU和GPU的性能不同，我们开发了一种新的负载均衡器，在运行时动态平衡CPU和GPU之间的工作负载。我们使用两个代表性的GNN采样算法，在三个数据集上评估了我们的协议。与现有GNN框架采用的标准训练协议相比，我们的协议有效地提高了资源利用率和整体训练时间。在GPU略微优于CPU的平台上，我们的协议可以将GNN训练加速1.41倍。在GPU明显优于CPU的平台上，我们的协议可以将GNN训练加速1.26倍。我们的协议是开源的，可以无缝地集成到现有的GNN框架中，加速GNN训练。我们的协议特别适用于由于高需求而受限于GPU访问的用户。
图表
解决问题

论文试图解决在大规模图上训练GNN模型时，数据通信和计算量过大的问题，提高CPU-GPU平台资源利用率。
关键思路

论文提出了一种新的统一CPU-GPU协议，通过在CPU和GPU上并行实例化多个GNN训练进程来提高平台资源利用率，并减少CPU-GPU数据传输开销。同时，开发了一个动态负载均衡器，平衡CPU和GPU之间的工作负载。
其它亮点

论文通过在三个数据集上使用两种代表性的GNN采样算法和两种广泛使用的GNN模型，评估了新协议的性能。结果表明，相较于现有GNN框架中采用的标准训练协议，该协议有效提高了资源利用率和整体训练时间，尤其对于GPU资源受限的情况下更为明显。此外，该协议已开源，可无缝集成到现有GNN框架中。
相关研究

在此领域中，最近的相关研究包括《Deep Graph Library: A Graph-Centric, Highly-Performant Package for Graph Neural Networks》和《PyTorch Geometric: A Library for Deep Learning on Graphs》等。

A Unified CPU-GPU Protocol for GNN Training

评论