Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages

2024年05月08日
  • 简介
    命名实体识别(NER)是自然语言处理(NLP)应用中的一个有用组件。它被用于各种任务,如机器翻译、摘要、信息检索和问答系统。NER的研究集中在英语和其他几种主要语言上,而对印度语言的关注有限。我们分析了挑战并提出了可为印度语言定制的多语言命名实体识别技术。我们提供了一个人工注释的命名实体语料库,包括两个主要印度语言家族的4种印度语言的40K个句子。此外,我们提供了一个在我们的数据集上微调的多语言模型,平均F1得分为0.80。我们在完全未见过的印度语言基准数据集上获得了可比较的性能,这证实了我们模型的可用性。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决印度语言中多语言命名实体识别的问题,提出了一种基于人工标注的命名实体语料库和多语言模型的解决方案。
  • 关键思路
    本文提出了一种可以针对印度语言进行定制的多语言命名实体识别方案,该方案基于人工标注的命名实体语料库,并使用多语言模型进行微调,实现了对印度语言命名实体的高效识别。
  • 其它亮点
    本文提供了一个基于人工标注的命名实体语料库,包括了4种印度语言,同时提出了一种多语言模型用于命名实体识别,并在多个基准数据集上验证了该模型的有效性。该研究可为印度语言NLP应用提供有力支持。
  • 相关研究
    印度语言命名实体识别的相关研究较少,但是近年来有一些相关研究,如《Named Entity Recognition for Indian Languages: A Review》、《A Survey on Named Entity Recognition in Indian Languages》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问