- 简介本文研究了专利短语相似性推断任务,该任务衡量了两个专利短语之间的语义相似度。由于专利文件采用法律和高度技术性的语言,现有使用局部上下文信息的语义文本相似度方法在推断专利短语相似性方面表现不尽如人意。为了解决这个问题,我们引入了一种图形增强方法,以增强专利短语的全局上下文信息。对于每个专利短语,我们构建一个短语图,将其链接到其焦点专利和一些被这些焦点专利引用或被引用的专利列表。然后,增强的短语嵌入是通过将其局部上下文嵌入和短语图中的全局嵌入相结合来得出的。我们进一步提出了一种自监督学习目标,利用检索到的拓扑结构以端到端的方式优化上下文嵌入和图参数。来自一个独特的专利短语相似性数据集的实验结果表明,我们的方法显著增强了专利短语的表示,从而在自监督方式下显著提高了相似性推断的性能。在监督学习设置中,也观察到了显著的改进,强调了利用检索到的短语图增强的潜在优势。
-
- 图表
- 解决问题本文旨在解决专利短语之间的语义相似度计算问题。由于专利文件使用法律和高度技术性的语言,因此现有的语义文本相似度方法在推断专利短语相似度方面表现不佳。
- 关键思路为了解决这个问题,本文提出了一种图增强方法,以增强专利短语的全局上下文信息。对于每个专利短语,构建一个短语图,链接到其焦点专利和引用或被其引用的专利列表。然后,从短语图中结合其局部上下文嵌入和全局嵌入得出增强的短语嵌入。本文进一步提出了一个自监督学习目标,以利用检索到的拓扑信息以端到端的方式优化上下文嵌入和图参数。
- 其它亮点本文的方法显著增强了专利短语的表示,从而在自监督方式下显著提高了相似度推断的性能。同时,在监督学习设置下也观察到了显著的改进。实验使用了一个独特的专利短语相似度数据集,并且开源了代码。
- 最近的相关研究包括使用BERT和其他预训练模型的语义相似度方法,以及基于图神经网络的方法。例如,“Graph Convolutional Networks for Text Classification”和“PatentBERT: A Pre-trained Language Model for Patent Text Mining”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流