(作者:季紫荆 申雨鑫 孙毅宁 雨田 王鑫)

为了基于古籍构建大规模、高质量的文言文知识图谱,我们利用群体智慧,设计并构建了一个众包标注系统。由于文言文的理解和标注需要一定的专业知识,不同专业背景的用户标注的准确率会有较大差别,如历史系的学生更可能作出准确的标注。因此不同于现有的众包系统,我们引入领域知识来实现高效准确的标注,以实现“二十四史”语料中实体和关系的高精度抽取。我们根据系统获得的标注结果生成了一个文言文语言理解测评基准及数据集 C-CLUE,填补了目前自然语言理解基准相关工作在文言文上的空白。C-CLUE 包括建立在相应数据集上的细粒度命名实体识别任务和关系抽取任务,可用于微调当前自然语言处理主流的预训练语言模型并评估模型处理文言文的性能,同时能够为中国古代历史文献知识图谱构建提供数据支持。