- 简介在当前预训练语言模型(PLM)的趋势中,越来越多的人对这些模型的道德和生态影响提出批评。在本文中,考虑到这些批评意见,我们建议关注更小的模型,例如像ALBERT这样的紧凑模型,这些模型比这些PLM更具生态优势。然而,PLM在自然语言处理任务中取得了巨大的突破,例如口语和自然语言理解、分类、问答任务。PLM还具有多语言优势,据我们所知,紧凑的ALBERT模型的多语言版本不存在。考虑到这些事实,我们建议免费发布第一个多语言紧凑ALBERT模型的版本,该模型使用维基百科数据进行预训练,符合这种语言模型的道德方面。我们还在经典的NLP任务中将该模型与传统的多语言PLM进行了评估。最后,本文提出了一项关于子词标记化对语言表现影响的罕见研究。
-
- 图表
- 解决问题提出了一个解决PLM在伦理和生态方面影响的方法,即使用更小的模型,如紧凑的ALBERT模型,但这些模型在多语言方面存在限制。因此,本文提出了第一个使用维基百科数据预训练的多语言紧凑ALBERT模型,并将其与传统的多语言PLMs进行比较。
- 关键思路本文提出了使用维基百科数据预训练的多语言紧凑ALBERT模型,以解决PLM在伦理和生态方面的影响。
- 其它亮点本文提出的多语言紧凑ALBERT模型在多种NLP任务中表现出色,并且比传统的多语言PLMs更具生态可持续性。此外,本文还研究了子词标记化对语言性能的影响。
- 最近的相关研究包括BERT、RoBERTa、GPT等大型预训练语言模型,以及其他紧凑模型如DistilBERT、MobileBERT等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流