论文链接:https://sven-lieber.org/en/publication/phd.pdf

几个世纪以来,人类一直在收集数据和表征信息,但数字技术的出现,特别是万维网的出现,导致了新的挑战:稳步增长的各种数据需要以系统和有意义的方式进行整合管理。否则,只剩下质量不明的大量无关联的数据。

为了实现信息的智能管理,我们需要以统一的方式表示数据。此外,我们需要表示限制条件,以定义哪些数据连接在某个用例中是有意义的或有效的,以表示手头的信息。一个简单但强大的方法是通过两件事来表示信息:概念和概念之间的关系。这就形成了一个以概念为节点、以连接节点的关系为边的图结构,即所谓的知识图谱。像这样,我们可以表示 "作者"、"人 "和 "书 "这三个概念,以及 "写 "或 "买 "这样的关系。而作者 "安迪-威尔 "写了《火星人》一书的信息是有意义的信息,《火星人》一书不能写作者 "安迪-威尔"。然而,对于计算机来说,如果没有限制条件来限制连接概念与关系的可能方式,这两个例子都是有效的。

表达什么是在特定环境下有意义的或者什么是高质量的限制是主观的,必须由人类来定义。在给定的例子中,限制可以是作者写书,作者也是一个人。在这种情况下,这些限制是所谓的公理:说明根据模型什么是真的。这些限制可以被计算机用来推断新的知识:根据安迪-威尔写了《火星人》这本书的知识,可以推断出他是一个作家和一个人。另一个限制可能是,只有人可以写书,而且数据库中的所有书都需要有作者。在这种情况下,这些限制是所谓的约束,用来识别无效的数据。这可以用于质量评估,以识别缺失的作者信息或错误的数据。

本论文主要研究人类对知识图谱的创建和使用限制。当定义抽象的概念,如 "作者 "或 "书 "时,人们通常把它称为词汇表。它的术语可以通过公理来限制意义,那么这个词汇就可以被称为本体论。当连接知识图谱中的具体数据时,如作者 "安迪-威尔 "和书 "火星人",人们使用这种词汇表的术语将其称为数据,例如 "安迪-威尔是一位作者 "和 "火星人是一本书"。在某种情况下,对这些数据有效的东西可能受到限制。为了用机器友好的方式表示所有这些,我们可以使用万维网联盟(W3C)推荐的以下语言:(i)资源描述框架(RDF)来表示术语,(ii)RDF Schema(RDFS)和网络本体语言(OWL)来表示公理(iii)和形状约束语言(SHACL)来表示约束。

第一个挑战是支持用户根据使用的限制条件来评估知识图谱。在构建知识图谱时,现有的词汇表经常被重复使用,这使得一个系统中的信息在其他系统中也能被理解。这些词汇表通常包含影响潜在重用的公理:一些公理在计算上更加复杂,人们可能希望在某个使用案例中避免重用包含这些公理的词汇表。同样地,人们可能要评估现有约束条件对通用词汇的使用。但在这两种情况下,目前对用户比较和选择所使用的限制条件的知识图谱的支持有限。

第二个挑战是如何支持用户创建约束条件。通常情况下,领域专家最清楚他们要施加哪些限制,但他们不是知识图谱专家,需要一种用户友好的方式来创建知识图谱限制。其他研究表明,表示如何以视觉方式表示某些概念的可视化符号可以支持用户。目前,还没有这样的可视化符号来可视化知识图谱的约束。

限制条件的使用是特定的,因此在本论文中,我们专注于数据管理的某个用例:支持国家图书馆对社会媒体的保存。一方面,在保存动态社交媒体内容时,需要考虑不同的异质数据源。然而,目前还没有一个完整的社交媒体归档工作流程,可以有意义地结合不同的数据片段。另一方面,保存的内容需要被访问和查询,这对主观的数据质量约束提出了挑战。

为了解决第一个挑战,我们提出了一种方法来衡量知识图谱中限制条件的使用,并提出了收集到的原理和限制条件的统计数据。我们首先介绍了Montolo,这是一种定义抽象限制类型的方法,如 "subclass "和RDF中的具体表达,如rdfs:subClassOf。然后,我们介绍了一个在RDF中创建可互操作的限制使用统计的实现。我们通过测量(i)RDFS和OWL公理在来自通用LOV和特定领域的BioPortal资源库的一千多个本体中的使用情况,以及(ii)来自确定的GitHub资源库的SHACL形状中的限制使用情况,来证明这种方法的可行性。

为了解决第二个挑战,我们关注的是如何支持人类用视觉符号来创建约束,这些符号可以直观地显示SHACL中指定的所有约束。我们在计算机科学和知识图谱领域现有的常用可视化符号的基础上,提出了两个可视化符号ShapeUML和ShapeVOWL。我们根据认知有效的设计原则对它们进行了比较,因为它们是要被人类用户认知处理的,并在一个用户比较研究中对这两种符号进行了评估。

为了解决第三个挑战,我们引入了一个基于知识图谱的社交媒体归档解决方案和相应的质量评估与约束。我们的BESOCIAL解决方案是基于声明式的知识图谱生成:使用通用词汇及其公理来有意义地整合异质的社会媒体归档相关数据。此外,我们提出了社交媒体档案相关的数据质量类别、维度和指标,以及用知识图谱约束的低级验证来衡量相应的高级数据质量指标。我们遵循既定的方法,但与现有作品相比,我们的质量评估依赖于万维网联盟(W3C)的相关规范,而不是定制软件。