KoCoNovel: Annotated Dataset of Character Coreference in Korean Novels

2024年04月01日
  • 简介
    我们提供了KoCoNovel,这是一个从韩国文学文本中提取的小说人物指代数据集,并附有详细的注释指南。KoCoNovel包含来自50部现代和当代韩国小说的178K个标记,是继NIKL语料库之后韩语公共指代消解语料库中第二大的,并且是第一个基于文学文本的。为了扩大其实用性,我们提供了四个不同版本的KoCoNovel,提供了透视全知作者和读者的选项,并提供了将多个实体处理为分离或重叠的选项。这种方法整合了现有的关于文学文本中指代消解的讨论,为探索提供了全面的数据集。KoCoNovel的一个独特特点是,24%的所有人物提及都是单个普通名词,缺乏所有格标记或冠词。这个特点特别受到韩国称呼文化细微差别的影响,韩国称呼文化更倾向于使用表示社会关系和亲属关系的术语而非个人姓名。在使用基于BERT的指代消解模型进行实验时,我们观察到与NIKL语料库相比,KoCoNovel表现出显著的性能提升。这些发现强调了KoCoNovel通过整合韩国文化和语言动态可能会显著增强指代消解模型的潜力。
  • 图表
  • 解决问题
    KoCoNovel试图解决韩文小说中人物指代消解的问题,并提供一个基于文学作品的韩文人物指代消解数据集。
  • 关键思路
    KoCoNovel提供四种不同版本的数据集,以处理多个实体的重叠和分离,并提供了详细的注释指南。该数据集的独特之处在于,24%的人物提及是单个普通名词,缺乏所有格标记或冠词。
  • 其它亮点
    实验使用了BERT-based人物指代消解模型,并发现在KoCoNovel数据集上相比于NIKL数据集有明显的性能提升。这篇论文的贡献在于提供了一个基于文学作品的韩文人物指代消解数据集,可以为相关研究提供更多的探索空间。
  • 相关研究
    在韩文人物指代消解的领域中,NIKL是最大的公共数据集之一,而KoCoNovel是第二大公共数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论