GLBench: A Comprehensive Benchmark for Graph with Large Language Models

简介

大语言模型（LLMs）的出现彻底改变了我们与图表交互的方式，引发了一种名为GraphLLM的新范式。尽管近年来GraphLLM方法得到了快速发展，但由于缺乏具有一致实验协议的基准测试，该领域的进展和理解仍不清楚。为弥补这一差距，我们介绍了GLBench，这是第一个全面评估GraphLLM方法在监督和零样本场景下的基准测试。GLBench提供了对不同类别的GraphLLM方法以及传统基线（如图神经网络）的公正和全面的评估。通过对一系列真实世界数据集的广泛实验，并采用一致的数据处理和分割策略，我们发现了几个关键发现。首先，GraphLLM方法在监督设置中优于传统基线，LLM作为增强器表现最为稳健。然而，将LLMs用作预测器则不够有效，常常会导致无法控制的输出问题。我们还注意到，当前GraphLLM方法不存在明确的缩放规律。此外，结构和语义对于有效的零样本转移至关重要，我们提出的简单基线甚至可以胜过为零样本场景量身定制的几个模型。基准测试的数据和代码可以在https://github.com/NineAbyss/GLBench找到。
图表
解决问题

GLBench论文旨在解决图形语言模型（LLMs）的评估问题，特别是在监督和零样本场景下的评估问题。
关键思路

GLBench是第一个全面的基准测试，旨在公平、彻底地评估不同类别的GraphLLM方法，以及传统的基线方法，例如图神经网络。通过在一组真实世界的数据集上进行大量实验，我们发现GraphLLM方法在监督设置中优于传统的基线方法，而LLM作为增强器表现最为稳健。然而，将LLMs用作预测器效果不佳，并且经常导致无法控制的输出问题。此外，当前的GraphLLM方法没有明显的缩放规律。此外，结构和语义对于有效的零样本转移至关重要，我们提出的简单基线甚至可以胜过为零样本场景量身定制的几个模型。
其它亮点

值得注意的是，GLBench提供了一种公平和彻底的评估方法，以评估不同类别的GraphLLM方法。此外，该论文还开源了数据和代码。此外，该论文发现LLM作为增强器的表现最为稳健，但将LLMs用作预测器效果不佳，并且经常导致无法控制的输出问题。此外，该论文还发现当前的GraphLLM方法没有明显的缩放规律。
相关研究

在这个领域中，最近的相关研究包括《Deep Graph Library: Towards Efficient and Scalable Deep Learning on Graphs》和《GraphSAINT: Graph Sampling Based Inductive Learning Method》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论