作者:Chengyue Jiang, Yong Jiang, Weiqi Wu, 等
推荐理由:本文提出的规范化标准,是业界首次定量评估开放式知识图谱规范化的全部范围。
简介:开放知识图谱 (KG) 由从数百万原始文本中提取的(主题、关系、对象)三元组组成。open KG中的主宾名词短语和关系存在严重的冗余和歧义,需要规范化。用于开放 KG 规范化的现有数据集仅提供名词短语的黄金实体级规范化。在本文中,作者介绍了 COMBO,一个完整的 Open KG 规范化基准。与现有数据集相比,作者额外提供了关系短语的黄金规范化、名词短语的黄金本体级规范化以及从中提取三元组的源句。作者还提出了评估每种类型规范化的指标。在 COMBO 数据集上,作者凭经验比较了先前提出的规范化方法以及一些基于预训练语言模型的简单基线方法。作者发现:使用预训练语言模型对三元组中的短语进行正确编码可以实现更好的关系规范化和名词短语的本体级规范化。
代码下载地址:https://github.com/jeffchy/COMBO/tree/main 。
论文下载:https://arxiv.org/pdf/2302.03905.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢