- 简介自然语言处理(NLP)在数字人文领域中起着重要作用,是推进历史和文化遗产文本结构分析的基石,特别是在命名实体识别(NER)和关系抽取(RE)领域。为了加快古代历史和文化的研究,我们呈现了“中国历史信息抽取语料库”(CHisIEC)。 CHisIEC是一个精心策划的数据集,旨在开发和评估NER和RE任务,提供一个资源以促进该领域的研究。该数据集跨越了一个非凡的历史时间线,涵盖了1830年的13个朝代的数据,体现了中国历史文献中固有的广泛时间范围和文本异质性。该数据集包含四种不同的实体类型和十二种关系类型,结果是一个精心标记的数据集,包括14,194个实体和8,609个关系。为了确定我们数据集的稳健性和多功能性,我们进行了全面的实验,涉及各种大小和范例的模型。此外,我们还在古代中国历史相关任务的背景下评估了大型语言模型(LLM)的能力。该数据集和代码可在\url{https://github.com/tangxuemei1995/CHisIEC}上获得。
-
- 图表
- 解决问题解决问题:该论文旨在提供一个用于命名实体识别和关系抽取任务的中文历史文本数据集,并评估不同模型在该数据集上的表现。
- 关键思路关键思路:该论文提出了一个名为CHisIEC的中文历史信息提取语料库,包含13个朝代1830年的历史文本数据,涵盖了4种实体类型和12种关系类型。该数据集的精确标注为命名实体识别和关系抽取任务提供了一个良好的资源,同时作者还评估了不同模型和大型语言模型在该数据集上的表现。
- 其它亮点其他亮点:该论文的实验设计全面,使用了多种模型和数据集,并提供了开源代码。该数据集的跨度极大,涵盖了多个朝代和文本类型,具有较高的价值和实用性。此外,该论文还评估了大型语言模型在中文历史文本任务中的表现,为相关研究提供了参考。
- 相关研究:在该领域中,有一些相关研究,如《Chinese Named Entity Recognition and Relation Extraction Using Enhanced Lexicon and Neural Networks》和《A Survey of Named Entity Recognition and Classification》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流