标题:清华|FEW-NERD: A Few-shot Named Entity Recognition Dataset(FEW-NERD:少数命名实体识别数据集)

简介:最近,大量的文献已经围绕少样本命名实体的主题识别(NER),但很少有发布的基准数据专门针对实际和具有挑战性的任务。当前的方法收集现有的受监督的 NER 数据集,并将它们重组为用于实证研究的少样本设置。这些策略通常旨在识别粗粒度的实体类型,而在实践中,大多数看不见的实体类型是细粒度的。在这论文中,我们提出了 FEW-NERD,一个大规模的人工注释的少样本 NER 数据集8 个粗粒度和 66 个细粒度实体类型的层次结构。FEW-NERD 包括来自维基百科的 188,238 个句子,4,601,160包括单词,每个单词都被注释为上下文或两级实体类型的一部分。据我们所知,这是第一个小样本 NER 数据集和最大的人工 NER 数据集。我们构建不同侧重点的基准任务来综合评估模型的泛化能力。广泛的实证结果和分析表明 FEW-NERD 具有挑战性,该问题需要进一步研究。

资源下载:https://github.com/thunlp/Few-NERD

论文下载:https://arxiv.org/pdf/2105.07464.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除