TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models

2024年06月20日
  • 简介
    在这份报告中,我们介绍了TAGLAS,一种文本属性图(TAG)数据集和基准的图谱。TAG是具有文本表示的节点和边缘特征的图形,最近在训练图形语言或图形基础模型方面得到了广泛的应用。在TAGLAS中,我们收集和整合了超过23个TAG数据集,领域涵盖从引文图到分子图,任务涵盖从节点分类到图形问答。与以往的图形数据集和基准不同,TAGLAS中的所有数据集都具有统一的节点和边缘文本特征格式,这使得图形模型可以同时在来自各个领域的多个数据集上进行训练和评估。此外,我们提供了一种标准化、高效、简化的加载所有数据集和任务的方法。我们还提供了有用的工具,如文本到嵌入式转换和图形到文本转换,可以促进不同的评估场景。最后,我们还提供了标准且易于使用的评估工具。该项目在https://github.com/JiaruiFeng/TAGLAS上开源,目前仍在建设中。请期待未来更多的数据集/特征。
  • 图表
  • 解决问题
    TAGLAS试图解决的问题是统一不同领域的文本属性图数据集的格式,并提供一种标准化的方式来加载和评估这些数据集。
  • 关键思路
    TAGLAS提供了一种统一的节点和边文本属性格式,使得图模型可以同时在不同领域的多个数据集上进行训练和评估。此外,TAGLAS还提供了一些实用工具来帮助不同的评估场景。
  • 其它亮点
    TAGLAS收集了超过23个文本属性图数据集,并提供了标准化、高效、简化的加载方式。此外,还提供了文本转嵌入、图转文本等实用工具,以及标准易用的评估工具。该项目已经开源,可以在GitHub上找到。
  • 相关研究
    最近在这个领域中,还有一些与TAGLAS相关的研究,例如GAT、GraphSAGE等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论