UzBERT:为乌兹别克语预训练BERT 模型
作者: B. Mansurov , A. Mansurov
乌兹别克语的预训练模型
简介: 基于Transformer体系结构的预训练语言模型,在各种自然语言处理任务(如词性标注、命名实体识别和问答)中取得了最新成果。然而,乌兹别克语的这种单语模式尚未公开。
在本文中,我们介绍了UzBERT:一种基于BERT结构的预训练乌兹别克语模型。
我们的模型在掩蔽语言模型的准确性上大大优于多语言的BERT。
UzBERT的优点之一是的词汇量更小(因此需要更少的资源进行微调)并且理论上能够更好地捕获
语言的复杂性,因为只在乌兹别克语文本上训练。由于乌兹别克缺乏下游任务的公共数据集,我们无法测试其在此类任务上的性能。因此未来工作的方向之一是生产这些数据集并评估下游任务。
我们在麻省理工学院开放源码许可下、已公开该模型。
论文地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.09814.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢