当我们在百科网站中打开一个百科词条时,会发现每个词条页面都是按照特定格式是组织的,例如大多都包括了多义区(一个词往往会有多个义项:

如苹果一词有22个义项)、

简介区(对该词条进行了摘要式总结)

信息框(也称infobox,为半结构化数据,通过表格方式上进行属性键值对进行展示)

正文区(关于该词条的详细介绍以及超链接)

标签区(与该词条相关的标签和类型信息)

参考来源区(该百科词条中引文信息的出处)。

这些信息为结构化的知识提供了直接数据来源。例如,从多义区中可以获取词条的上位概念和相关概念信息,

可以将简介区中抽取出剪短的句子作为该词条的描述,可以从信息框中得到丰富的属性信息,

可以从正文区中获取标记词条与本词条之间的共现或相关信息,也可以从标签区中获取该词条的类型和标签关系。

当然,也可以通过获取百科分类schema体系的方式来获取实体类别或者概念上下位信息。

当前,基于百科知识图谱的构建方式大体上可以分成两种范式,一种是基于已有的百科知识平台,利用知识结构化的手段,进行抽取、转换,形成结构化知识图谱,另一种是直接设计知识图谱的众包构建平台,直接完成构建。

本文以具有代表性的DBpedia、Freebase项目进行介绍,可以从中看到百科类图谱的两种重要构建方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除