SymTax: Symbiotic Relationship and Taxonomy Fusion for Effective Citation Recommendation

简介

本文旨在讲述如何在科学论文的写作和审阅中引用相关文献。现有的技术主要集中于局部或全局上下文来推荐引用，但未考虑实际的人类引文行为。作者提出了SymTax，一个三阶段的推荐架构，考虑了局部和全局上下文，以及查询-候选元组的分类表示和它们之间的共生关系。SymTax学习将嵌入的分类系统嵌入到双曲空间中，并使用双曲分离作为潜在特征来计算查询-候选相似性。作者构建了一个新颖的大型数据集ArSyTa，其中包含827万个引文上下文，并详细描述了创建过程。作者进行了广泛的实验和消融研究，以展示框架中每个模块的有效性和设计选择。此外，从实验中的组合分析中，我们可以看出语言模型（LM）和融合嵌入的选择以及包含章节标题作为信号的含义。作者提出的仅捕捉共生关系的模块在ACL-200和RefSeer数据集上的Recall@5方面分别比SOTA提高了26.66％和39.25％。完整的框架相对于我们提出的数据集的SOTA在Recall@5方面提高了22.56％。代码和数据集可在https://github.com/goyalkaraniit/SymTax上获得。
图表
解决问题

本论文旨在提出一种考虑人类引用行为的文献引用推荐方法，现有的方法主要关注局部或全局上下文来进行引用推荐，但未考虑实际的人类引用行为。
关键思路

SymTax是一种三阶段的引用推荐架构，考虑了局部和全局上下文，以及查询-候选元组的分类表示和它们之间的共生关系。SymTax学习将嵌入的分类法嵌入到双曲空间中，并使用双曲分离作为潜在特征来计算查询-候选相似度。
其它亮点

论文构建了一个新的大型数据集ArSyTa，其中包含8.27百万个引文上下文，并详细描述了创建过程。通过广泛的实验和消融研究来证明每个模块在我们的框架中的有效性和设计选择。论文提出的捕捉共生关系的模块仅在ACL-200和RefSeer数据集上的Recall@5方面分别获得了26.66%和39.25%的性能提升。完整的框架相对于我们提出的数据集的SOTA在Recall@5方面获得了22.56%的性能提升。代码和数据集可在https://github.com/goyalkaraniit/SymTax上获得。
相关研究

在这个领域中，最近的相关研究包括：1）CiteGPT：一种基于GPT的文献引用推荐方法；2）Citation-Proximity：一种基于引用相似性的文献引用推荐方法；3）DeepCite：一种基于深度学习的文献引用推荐方法。

SymTax: Symbiotic Relationship and Taxonomy Fusion for Effective Citation Recommendation

评论