开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE（CCKS2021）

“二十四史”是中国古代各朝撰写的二十四部史书的总称，记录了丰富的历史人物和事件。由于古代汉语和现代汉语在语义和语法上存在较大差异，识别史书中的实体和关系耗时耗力，因此我们利用群体智慧，采用众包标注系统，并通过引入领域知识来实现高效准确的标注。根据系统的标注结果，可以得到一系列的实体和关系来构建文言文语言理解测评基准及数据集。

C-CLUE是一个基于众包标注系统构建的文言文语言理解测评基准及数据集，由天津大学数据库课题组贡献，包括建立在相应数据集上的细粒度命名实体识别（NER）任务和关系抽取（RE）任务，可用于微调当前自然语言处理（NLP）主流的预训练语言模型（PTM）并评估模型处理文言文的性能，同时能够为中国古代历史文献知识图谱构建提供数据支持。本次开源了从标注系统中获取的近2万个实体以及4千多个关系，并分割成训练集、校验集、测试集等文件，可供文言文NER和RE直接使用。

OpenKG地址：http://openkg.cn/dataset/c-clue

GitHub地址：https://github.com/jizijing/C-CLUE

网站地址：http://152.136.45.252:60002/pages/login.html

开放许可协议：CC BY-SA 4.0 （署名相似共享）

贡献者：天津大学（王鑫，季紫荆，申雨鑫，孙毅宁，雨田）

内容中包含的图片若涉及版权问题，请及时与我们联系删除

开源开放 | 一个用于文言文实体识别与关系抽取等任务的开源数据集C-CLUE（CCKS2021）

评论列表

评论