- 简介本文介绍了德语方言命名实体识别(NER)的第一个数据集BarNER,使用了从德语CoNLL 2006和GermEval改编的模式,在巴伐利亚维基百科文章(bar-wiki)和推文(bar-tweet)上标注了161K个标记。巴伐利亚方言在词汇分布、句法结构和实体信息上与标准德语有所不同。研究人员在两个巴伐利亚语和三个德语语料库上进行了领域内、跨域、顺序和联合实验,并首次在巴伐利亚语上呈现了全面的NER结果。将更大的德语NER(子)数据集的知识纳入其中,显著提高了bar-wiki的性能,并在bar-tweet上略有改善。反之,在巴伐利亚语上的训练对于标志性的德语CoNLL 2006语料库有轻微的贡献。此外,通过在巴伐利亚推文上使用金标签标注,我们评估了五个NER和两个巴伐利亚-德语方言识别任务之间的多任务学习,并在bar-wiki上实现了NER SOTA。我们证实了低资源的BarNER语料库的必要性,以及方言、体裁和主题多样性在提高模型性能方面的重要性。
- 图表
- 解决问题本论文旨在解决德语方言命名实体识别(NER)数据稀缺的问题,提出了首个德语方言NER数据集BarNER,并在多个数据集上进行实验,证明了方言NER的重要性。
- 关键思路论文的关键思路是在德语巴伐利亚方言上进行命名实体识别,并将该数据集与现有的德语NER数据集相结合,以提高模型性能。
- 其它亮点论文提出了首个德语方言NER数据集BarNER,该数据集包括来自巴伐利亚维基百科和推特的161K标注令牌,使用了从德语CoNLL 2006和GermEval中适应的模式。研究人员在两个巴伐利亚语和三个德语语料库上进行了实验,并证明了BarNER的必要性和方言多样性的重要性。论文还展示了多任务学习在命名实体识别中的效果,并在BarNER数据集上取得了最佳结果。
- 最近的相关研究包括《A Survey on Named Entity Recognition in Dialects》和《Named Entity Recognition in Low-Resource Languages Using Cross-Lingual Transfer Learning》。
沙发等你来抢
去评论
评论
沙发等你来抢