UzBERT:为乌兹别克语预训练BERT 模型

作者: B. Mansurov , A. Mansurov

推荐理由: 小语种乌兹别克语的预训练模型

简介: 基于Transformer体系结构的预训练语言模型,在各种自然语言处理任务(如词性标注、命名实体识别和问答)中取得了最新成果。然而,乌兹别克语的这种单语模式尚未公开。

在本文中,我们介绍了UzBERT:一种基于BERT结构的预训练乌兹别克语模型。

我们的模型在掩蔽语言模型的准确性上大大优于多语言的BERT。

UzBERT的优点之一是的词汇量更小(因此需要更少的资源进行微调)并且理论上能够更好地捕获

语言的复杂性,因为只在乌兹别克语文本上训练。由于乌兹别克缺乏下游任务的公共数据集,我们无法测试其在此类任务上的性能。因此未来工作的方向之一是生产这些数据集并评估下游任务。

我们在麻省理工学院开放源码许可下、已公开该模型。

 

论文地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.09814.pdf

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除