Presenting Terrorizer: an algorithm for consolidating company names in patent assignees

2024年03月07日
  • 简介
    专利中公司名称的消歧义问题对于提取有用信息构成了重大挑战。这个问题会使研究结果产生偏差,因为它通常会低估归属于公司的专利数量,特别是跨国公司,它们会用大量名称提交专利,包括同一实体的不同拼写和子公司。目前,解决这些挑战主要依赖于基于字典或字符串匹配的劳动密集型方法,这使得大规模数据集上的专利归属问题大多没有得到解决。为了弥补这一差距,本文介绍了Terrorizer算法,这是一种基于文本的算法,利用自然语言处理、网络理论和基于规则的技术来协调专利被授权人的公司名称变体。特别地,该算法遵循其前身的三部分结构,即解析、匹配和过滤阶段,增加了一个原始的“知识增强”阶段,用于丰富每个被授权人名称的可用信息。我们在一组325,917家公司名称上使用Terrorizer,这些公司是美国专利商标局从2005年到2022年授予专利的被授权人。Terrorizer的性能在四个金标准数据集上进行评估。这个验证步骤向我们展示了两件主要的事情:第一,Terrorizer的性能在不同类型的数据集上类似,证明了我们的算法具有很好的泛化性。第二,与PatentsView当前用于同一任务的算法(Monath等人,2021)相比,它实现了更高的F1分数。最后,我们使用树形Parzen估计器(TPE)优化算法来调整超参数。我们的最终结果是将初始名称集合减少了超过42%。
  • 图表
  • 解决问题
    解决问题的问题是如何对公司名称进行消歧,以便从专利中提取有用信息?这是一个新问题吗?
  • 关键思路
    论文提出了Terrorizer算法,该算法利用自然语言处理、网络理论和基于规则的技术来对专利受让人的公司名称变体进行协调。与当前领域的研究相比,该算法引入了一个新的“知识增强”阶段,以丰富每个受让人名称的可用信息。
  • 其它亮点
    论文使用Terrorizer算法对由USPTO授予的专利中的325,917个公司名称进行了消歧,并使用四个金标准数据集对其性能进行了评估。结果表明,Terrorizer算法的性能优于PatentsView中用于相同任务的算法。论文使用Tree-structured Parzen Estimator(TPE)优化算法进行超参数调整,最终将初始名称集减少了42%。
  • 相关研究
    最近的相关研究包括Monath等人的论文,他们使用了一种算法来解决相同的专利受让人名称消歧问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论