CCKS 2021丨C-CLUE: A Benchmark of Classical Chinese Based on a Crowdsourcing System for Knowledge Graph Construction (Demo)

（作者：季紫荆申雨鑫孙毅宁雨田王鑫）

OpenKG地址：http://openkg.cn/dataset/c-clue

C-CLUE地址：https://github.com/jizijing/C-CLUE

众包标注系统地址：http://152.136.45.252:60002/pages/login.html

中国古籍博大精深、浩如烟海，凝聚着前人的心血和智慧，传承着华夏的精神和文明。史书典籍不仅是文化的延续，更蕴含着丰富的信息，如果能将不易理解的古籍文本形象展示给大众，对典籍进行通俗化、生动化的“转码”，把古籍变成读者可感知的作品，将有助于古籍焕发新生，从封闭走向世界。

在众多知识表示方式中，知识图谱（Knowledge Graph，KG）作为一种语义网络，拥有极强的表达能力，可以灵活地对现实世界中的实体、概念、属性以及它们之间的关系进行建模。相比于其他结构知识库，知识图谱的构建以及使用都更加接近人类的认知学习行为，因此对于人类阅读更加友好。知识图谱构建旨在组织并可视化知识，其基础是命名实体识别（Named Entity Recognition，NER）和关系提取（Relation Extraction，RE）这两项自然语言处理任务。

由于古代汉语与现代汉语在语法和词义上的巨大差别，手工标注其中的实体和关系耗时耗力。目前的主流技术预训练语言模型（Pre-Trained Language Model）能够在自然语言理解任务上实现较好的性能，然而，现有的中文理解测评基准及数据集大多为现代汉语，无法针对性地微调模型使之适应于古代汉语任务的特点。据我们所知，古代汉语领域仅有的NER任务数据集来自“CCL2020‘古联杯’古籍命名实体识别评测大赛”，其标注数据仅包含“书名”及“其他”两类实体，且规模有限。

图1 C-CLUE的构建框架图

如图1所示，我们基于结合群体智慧和领域知识的众包标注系统获取大规模、高质量的实体及关系数据，生成文言文语言理解测评基准及数据集C-CLUE，并使用该测评基准及数据集微调预训练语言模型。

（一）众包标注系统设计

我们设计并构建了一个众包标注系统，该系统引入“二十四史”的全部文本（约4000万字），并允许用户标注实体和关系。与现有的众包系统不同，在理解和标注文言文语料时，我们在系统中注入领域知识，并通过引入专业度得到高精度标注。具体而言，该系统通过在线测试判断用户的专业度，并在结果整合和奖励分配阶段考虑用户的专业度。另外，不同于注重任务分配策略的众包系统，本系统向每个用户开放相同任务，即“二十四史”的内容，并允许用户选择感兴趣的章节，对同一文本进行不同的标注，以最大限度地发挥群体智慧。

专业度评测方法（Professional Evaluation Standard）

（1）对于已知的专业度较高的用户，在将用户信息录入数据库时，直接将其角色定义为“专家标注用户”。

（2）对于未知用户，系统准备了具有标准答案的测试题目，并要求用户在第一次登录时进行作答。专业度将根据用户答题的准确率和题目的难度综合计算：(1) 根据志愿者的答题情况定义每道题目的难度初始值，难度值随着答题用户数的增加而动态变化，表示为答错的用户数量与参与答题用户总数的比值（取值范围为[0,1]）；(2) 题目分数与难度成正比，定义为难度乘10后进行向上取整（例如，难度值为0.24，题目分数为2.4向上取整，结果为3）；(3) 将所有题目分数之和作为总分，如果用户的得分高于总分的60%，将其角色定义为专家标注用户，反之，则将定义为普通标注用户。

图2 众包标注系统中的用户专业度测试页面

答案整合机制（Answer Integration Mechanism）

对于需要领域知识的文言语料标注任务，专业度高的用户更有可能做出正确的标注。例如，历史系学生比其他系学生掌握更多专业知识，做出正确标注的概率更大。因此，不同于现有的多数投票策略或引入准确度的方法，为了确保结果的准确性，本系统充分考虑了用户的专业度。

该众包系统允许用户修改界面上的现有注释，并将用户id、标注时间以及标注内容等信息录入数据库。如果多个用户对同一个实体或实体对有不同的标注，将分别保存它们而不是覆盖之前的标注。在下载数据时，如果有多条记录对应同一文本，则进行考虑用户专业度的答案整合，具体来说，系统为专家标注用户赋予的权重是普通标注用户的两倍，并采用加权多数投票策略来获得最终结果。

图3 众包标注系统中的用户标注页面

奖励分配策略（Crowdsourcing Reward Mechanism）

我们在现有众包系统的基础上，综合考虑专业度、标注准确率和标注数量，提出了一种新的奖励机制，并每隔固定时间结算一次奖励。

将答案整合后的最终结果视为正确结果，如果用户的标注与正确结果相同，则给予其奖励。对于专家标注用户，给予其双倍于普通标注用户的奖励。为了激励用户积极进行标注，该系统对标注的数量和正确率设置了阈值，并对超过该阈值的用户给予多倍奖励。

将一次标注的单价设为\( p \)，标注数量阈值设为\( a_{t} \)，标注准确率阈值设为\( c_{t} \)。如果一名普通标注用户在某一奖励分配周期内完成了\( n \)个标注，其中有效标注（与最终结果相同）为\( m \)个，且\( n \) > \( a_t \)，\( m/n \) > \( c_{t} \)，则该用户能够获得的奖励定义如下：

\( reward=m*(1+\frac{m}{n}-c_{t})*\frac{n}{a_{t}}*p \)
\( \)

（二）文言文语言理解测评基准及数据集C-CLUE构造

基于众包标注系统的实体和关系标注结果，我们构建了一个由NER和RE任务及其相应数据集组成的文言文语言理解基准。细粒度NER任务数据集由文本文件和标签文件组成，包括六类实体：人名、地名、组织名、职位名、书名和战争名。RE任务数据集包括七类关系：组织名-组织名、地名-组织名、人名-人名、人名-地名、人名-组织名、人名-职位名和地名-地名。

基于原始数据集，我们可以生成一个由句子和关系文件组成的关系分类数据集，以及一个类似于NER任务数据集的序列标记数据集。这时，生成的标签不再是实体类别标签，而是标志其为某关系的主体或客体的标签。

表1 用于命名实体任务数据集的统计数据

表2 用于关系抽取任务数据集的统计数据

（三）预训练语言模型微调

我们采用C-CLUE文言文语言理解测评基准及数据集微调预训练语言模型，如果模型能够在测试集上取得较好的准确率，可以考虑使用模型自动抽取未标注文本中的实体和关系，以进一步扩展数据集；如果准确率较低，则迭代从系统中获取新标注的实体和关系再对模型进行微调，直到模型能够在文言文任务上取得出色表现。

我们在基准测试中评估了以下预训练模型：BERT-Base、BERT-wwm、RoBERTa-zh和Zhongkeyuan-BERT（在下文中缩写为ZKY-BERT）。基线模型的介绍可参考GitHub项目。

表3 在六类实体数据集上的实验结果（%）

表4 在四类实体数据集（去除了人名、地名、组织名、职位名外的其他实体）上的实验结果（%）

从表3的结果可以看出，在处理细粒度NER时，在文言语料库上训练的ZKY-BERT模型表现最好，适应中文特点的BERT-wwm模型次之。从表4的结果可以看出，由于实体类型的减少，预训练模型都取得了相对较好的性能。

对于RE任务，我们将其拆分为两个子任务：关系分类和序列标记。实验表明，基线模型在关系分类任务上可以达到47.61%的准确率。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CCKS 2021丨C-CLUE: A Benchmark of Classical Chinese Based on a Crowdsourcing System for Knowledge Graph Construction (Demo)

评论