大规模GNN如何学习？北邮最新《分布式图神经网络训练》综述，35页pdf阐述分布式GNN训练算法和系统

图神经网络(GNNs)是一种基于图的深度学习模型，已成功应用于许多领域。尽管GNN具有一定的有效性，但GNN要有效地扩展到大型图仍然是一个挑战。作为一种补救措施，分布式计算能够提供丰富的计算资源，成为训练大规模GNN的一种很有前途的解决方案。然而，图结构的依赖性增加了实现高效分布式GNN训练的难度，这将受到海量通信和工作量不平衡的影响。近年来，人们在分布式GNN训练方面做了很多工作，提出了一系列的训练算法和系统。然而，从图处理到分布式执行的优化技术还缺乏系统的综述。本文分析了分布式GNN训练中的三个主要挑战，即大量特征通信、模型精度损失和工作负载不平衡。然后，我们介绍了分布式GNN训练优化技术的一种新的分类法，以解决上述挑战。新的分类法将现有技术分为四类:GNN数据分区、GNN批处理生成、GNN执行模型和GNN通信协议。我们仔细讨论了每个类别中的技术。最后，我们分别总结了现有的多GPU、GPU集群和CPU集群分布式GNN系统，并对可扩展GNN的未来发展方向进行了讨论。

论文链接：https://arxiv.org/pdf/2211.00216.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

大规模GNN如何学习？北邮最新《分布式图神经网络训练》综述，35页pdf阐述分布式GNN训练算法和系统

评论