HC-GST: Heterophily-aware Distribution Consistency based Graph Self-training

2024年07月25日
  • 简介
    图自我训练(GST)是解决图中标签稀疏性问题的流行方法,它选择并分配伪标签给未标记节点。然而,对同质图的最近研究表明,GST方法可能会引入和放大训练和测试节点之间的分布偏移,因为它们倾向于将伪标签分配给它们擅长的节点。由于GNN通常在同质节点上表现更好,因此可能存在向同质伪节点的潜在偏移,这是未被充分探讨的。我们的初步实验验证了这些方法可能会导致同质比率分布的偏移,从而导致“训练偏差”,提高同质节点的性能,同时降低异质节点的性能。因此,我们研究了一个新的问题,在异质图上减少同质比率分布的偏移。一个关键挑战是在没有大量标记数据的情况下准确计算同质比率及其分布。为了解决这些问题,我们提出了一种新的异质感知分布一致性图自我训练(HC-GST)框架,使用软标签估计同质比率,并优化选择向量以使伪节点与全局同质比率分布一致。对同质图和异质图的大量实验表明,HC-GST有效地减少了训练偏差并提高了自我训练的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本文针对图中标签稀疏问题,提出了一种自训练方法,但发现该方法会引入分布偏移并放大训练和测试节点之间的分布偏移,尤其是在同质图上。因此,本文提出了一个新问题,即如何减少在异质图上自训练时的同质比率分布偏移。
  • 关键思路
    本文提出了一种新的Heterophily-aware Distribution Consistency-based Graph Self-Training (HC-GST)框架,通过软标签估计同质比率并优化选择向量,以使伪节点与全局同质比率分布相一致,从而有效减少训练偏差并提高自训练性能。
  • 其它亮点
    本文的实验结果表明,HC-GST有效地减少了训练偏差并增强了自训练性能。研究表明,GST方法在同质图上会引入分布偏移并放大训练和测试节点之间的分布偏移。因此,本文提出了一个新问题,即如何减少在异质图上自训练时的同质比率分布偏移。本文还提出了一种新的框架HC-GST,通过软标签估计同质比率并优化选择向量,以使伪节点与全局同质比率分布相一致。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如:《Semi-Supervised Classification with Graph Convolutional Networks》、《Graph Convolutional Networks for Semi-Supervised Classification》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问