FastSample: Accelerating Distributed Graph Neural Network Training for Billion-Scale Graphs

简介

在一个庞大的单体图上训练图神经网络（GNNs）存在独特的挑战，因为该图无法适应单台机器，也无法分解为更小的不相连的组件。分布式基于采样的训练将图分布在多台机器上，并在每个训练迭代中对随机采样的图的小部分进行GNN训练。我们发现，在分布式环境中，采样开销是大规模图训练时间的一个重要组成部分。我们提出了FastSample，它由两个协同技术组成，极大地减少了分布式采样时间：1）一种新的图分区方法，消除了分布式采样中的大部分通信轮次，2）一种新颖的高度优化的采样核，减少了采样过程中的内存移动。我们在大规模图基准测试上测试了FastSample，并显示FastSample加速了基于分布式采样的GNN训练，速度提高了2倍，而精度没有损失。
图表
解决问题

如何在分布式环境下训练大规模图神经网络（GNNs）？
关键思路

FastSample是一个解决分布式采样训练时间开销的方法，它包含两个技术：新的图分区方法和高度优化的采样核心。
其它亮点

FastSample在大规模图数据集上测试，证明它可以将分布式采样训练时间缩短2倍，而且不会影响准确性。
相关研究

目前已经有一些研究尝试在分布式环境下训练GNNs，例如Cluster-GCN和GraphSAINT。