军用无人机相关原始语料属于军事领域数据,表现出军事领域数据的一般特点,如数据规模小、质量高,知识集中,权威性高,应用场景敏感紧要。因此,构建军用无人机知识图谱要求工程人员:①需在确保知识准确的前提下,进而拓展图谱规模。②基于规则或关键字匹配抽取知识时,需设计完备准确的规则集合。③基于神经网络学习抽取知识时,需收集大量额外相近数据以支持模型迁移。我们考虑到,基于规则或关键字匹配的知识抽取方式难以全面覆盖所有情况,且仅能发现显式知识,具有高正确率较、低召回率;基于神经网络学习的知识抽取方式难以收集大规模、高质量相似数据,且发现的知识错误率较高,具有高召回率、低正确率。因此,我们在知识图谱构建中结合以上两种方式,融合运用实体识别、词性标注、文本蕴含、语言模型等技术,实现了自动化和半自动化相结合的军用无人机知识抽取。整体工作由Schema修改、图谱构建、图谱可视化三部分组成,其中图谱构建包括实体识别、实体类型分类、属性抽取、关系抽取、案例抽取5个步骤,如图所示。具体地:

Schema修改:基于工程需求和数据特点分析,对给出参考的Schema做简化,以使图谱专注于实践应用中的关键知识。简化后的Schema减少了模型训练的Target,缓解了训练数据稀疏问题,有助于模型表现的提升。

实体识别:我们改进了RoBERTa Large+Bi-LSTM+CRF和RoBERTa Large+TENER+CRF模型,模型首先在额外收集的相似数据上训练,而后迁移到给定数据以增强表现,最终对两个模型的输出投票融合。

实体类型分类:探索使用了三种方法来判定实体类型,即基于规则匹配的方法,基于词性标注的方法以及基于规则增强的弱标签分类方法。通过设计判定规则,融合三种方法的输出来确定实体类型。

属性抽取:采用规则匹配的方式从实体识别出的结果中分辨出实体属性值并区分类别,将属性值与同一语句中的实体及属性名组合为三元组,通过判断三元组合法性来确定属性名和属性值是否隶属于该实体。

关系抽取:将两个实体同关系类型随机组合,判定组合后的三元组同原始文本的语义相似度,将相似度高的关系类型赋予两个实体,由此将关系抽取这一分类任务转换为文本语义相似任务,以解决训练数据稀疏,关系类型分布不均匀等问题。

案例抽取:我们使用事件触发词查找原文句子,然后判断原文句子是否包含时间信息来抽取无人机实战案例。

通过以上步骤,我们最终构建的军用无人机知识图谱包含341个实体,248条关系以及247条实体属性。

最后,构造完成知识图谱后,为了利于知识图谱后续的知识发现和知识推理,我们将知识图谱导入到非关系型图数据库Neo4j中进行存储管理,传统的关系数据库是把具有关系的数据放到一张张表里,而图数据库Neo4j能够直接以图结构的方式存储数据,图的顶点对应实体,顶点与顶点之间的边对应关系和属性,最终能够把知识以一张可视化的网状结构图表现出来,本次任务中,为了方便后续的第二阶段任务,使用Neo4j数据库管理知识图谱,图库中可视化样例如下图所示,绿色节点对应实体,红色节点对应属性,边对应实体与实体之间的关系。