作者:Stefan Schweter, Luisa März, Katharina Schmid, 等
简介:本文研究跨语言NER结合预训练技术实现历史语言模型。与标准命名实体识别(NER)相比,在历史文本中识别人、地点和组织是一个巨大的挑战。为了获得机器可读的语料库,通常需要扫描历史文本并进行光学字符识别(OCR)。因此,导致历史语料库包含很多错误。此外,位置或组织等实体可能会随着时间的推移而发生变化,这带来了另一个挑战。总体而言,历史文本有几个与现代文本截然不同的特点,用于训练神经标记者的大型标记语料库在这一领域几乎不可用。在这项工作中,作者通过训练大型历史语言模型来解决历史德语、英语、法语、瑞典语和芬兰语的NER问题。作者通过使用未标记数据对语言模型进行预训练来避免对标记数据的需要。hmBERT是一种基于历史的多语言BERT语言模型,不同大小的模型被公开发布。此外,作为今年HIPE-2022共享任务的一部分,作者通过解决下游NER来评估HMBET的能力,并提供详细的分析和见解。对于多语言经典评论粗粒度NER挑战,作者的tagger HISTeria在三种语言中有两种语言的表现优于其他团队的模型。
论文下载:https://arxiv.org/pdf/2205.15575
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢