【论文标题】GNN-XML: Graph Neural Networks for Extreme Multi-label Text Classification 【作者团队】Daoming Zong, Shiliang Sun 【发表时间】2020/12/10 【论文链接】https://arxiv.org/pdf/2012.05860.pdf 【推荐理由】 本文出自华东师范大学,针对极端多标签文本分类(XMTC)面对数据的可伸缩性和稀疏性,难以将标签扩展到极端、大部分长尾标签没有正面训练样例的问题,本文提出了GNN-XML方法,针对于该问题定制可伸缩图神经网络框架,有效的提高了标签识别能力。

在本文中,作者团队提出了GNN-XML,这是一种针对XMTC问题而定制的可扩展图神经网络框架。 简而言之,框架通过使用新颖的标签划分方法将大量标签划分为较少数量的簇来实现可伸缩性。 通过将每个输入文档解析为关键字图,利用图同构网络(GIN)来全面探索深层语义上下文信息,并学习将输入文本匹配到一小组标签集群的可靠表示形式。 并且进一步提议使用双边平衡分支学习逐步将更多的重点放在尾标上。 本文的主要贡献概述如下: (1)作者团队通过在数据集中挖掘标签的共现模式来利用标签之间的相关性,并基于相关矩阵构建标签图。 使用低通图过滤器进行属性图聚类,以共同对节点/标签连接性和节点/标签特征进行建模,从而产生依赖关系感知和语义感知标签集群; (2)KeyGraph构建模式允许灵活集成各种经过预训练的语言表示模型,例如BERT及其变体,这赋予GNN-XML强大的文本表示功能; (3)作者团队提出了一个端到端的双边分支图同构网络来解耦表示学习和分类器学习的尾标。 进行消融研究以证明推理和挖掘尾标的重要性和有效性。

下图为本文应用的GNN-XML框架的管道图示。首先,分别为一对文本输入构造两个KeyGraph,并将它们发送到双边分支GIN,其中:i)传统学习分支从统一采样器获取输入,考虑到学习原始分布的通用模式; ii)再平衡分支从为尾标量身定制的反向采样器获取输入。 然后,通过自适应学习策略聚合两个分支,以计算将一对文本输入分配给由标签图聚类引起的相关聚类的概率。

GNN-XML管道图

内容中包含的图片若涉及版权问题,请及时与我们联系删除