Copper City Labs | UzBERT：为乌兹别克语预训练BERT模型

UzBERT：为乌兹别克语预训练BERT 模型

作者： B. Mansurov , A. Mansurov

推荐理由：小语种乌兹别克语的预训练模型

简介：基于Transformer体系结构的预训练语言模型，在各种自然语言处理任务（如词性标注、命名实体识别和问答）中取得了最新成果。然而，乌兹别克语的这种单语模式尚未公开。

在本文中，我们介绍了UzBERT：一种基于BERT结构的预训练乌兹别克语模型。

我们的模型在掩蔽语言模型的准确性上大大优于多语言的BERT。

UzBERT的优点之一是的词汇量更小（因此需要更少的资源进行微调）并且理论上能够更好地捕获

语言的复杂性，因为只在乌兹别克语文本上训练。由于乌兹别克缺乏下游任务的公共数据集，我们无法测试其在此类任务上的性能。因此未来工作的方向之一是生产这些数据集并评估下游任务。

我们在麻省理工学院开放源码许可下、已公开该模型。

论文地址：https://arxiv.org/ftp/arxiv/papers/2108/2108.09814.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除