TorchGT: A Holistic System for Large-scale Graph Transformer Training

简介

Graph Transformer是一种新的架构，超越了图神经网络在图形学习方面的表现。虽然出现了令人鼓舞的算法进展，但它们的实际应用仍然受限，特别是在涉及数百万节点的实际图形上。我们观察到现有的图形转换器在大规模图形上失败的主要原因是计算量大、可扩展性有限和模型质量较差。受这些观察的启发，我们提出了TorchGT，这是第一个高效、可扩展和准确的图形转换器训练系统。TorchGT在不同层面上优化训练。在算法层面上，通过利用图形稀疏性，TorchGT引入了一种双交错注意力，这是计算效率高且保持准确性的。在运行时层面上，TorchGT通过通信轻量级的群集感知图形并行性来扩展训练。在内核层面上，弹性计算改革进一步优化计算，通过动态方式减少内存访问延迟。广泛的实验表明，TorchGT将训练提高了高达62.7倍，并支持长达1M的图形序列长度。
图表
解决问题

本论文旨在解决现有图神经网络在处理大规模图数据时出现的计算量大、可扩展性差和模型质量低的问题。
关键思路

论文提出了TorchGT，一种高效、可扩展、准确的图神经网络训练系统。TorchGT在算法层面、运行时层面和内核层面进行优化，通过引入Dual-interleaved Attention、Cluster-aware Graph Parallelism和Elastic Computation Reformation等技术，实现了高效的训练。
其它亮点

论文通过实验验证了TorchGT在大规模图数据上的高效性和可扩展性，支持图序列长度达到1M。此外，论文还开源了TorchGT的代码，方便其他研究者使用和改进。
相关研究

与本论文相关的研究包括Graph Neural Networks（GNNs）、Graph Attention Networks（GATs）等。

TorchGT: A Holistic System for Large-scale Graph Transformer Training

评论