AlcLaM: Arabic Dialectal Language Model

简介

预训练语言模型（PLMs）是许多现代自然语言处理（NLP）系统的重要组成部分。虽然多语种模型涵盖了广泛的语言，但它们经常面临高推理成本和缺乏多样化的非英语训练数据等挑战。阿拉伯语特定的PLMs主要是基于现代标准阿拉伯语进行训练的，这影响了它们在区域方言上的性能。为了解决这个问题，我们构建了一个包括340万句子的阿拉伯语方言语料库，这些句子来自社交媒体平台。我们利用这个语料库来扩展词汇，并从头重新训练一个基于BERT的模型。我们的模型名为AlcLaM，仅使用了13 GB的文本进行训练，相比于现有模型如CAMeL、MARBERT和ArBERT，分别仅占它们使用数据的7.8％、10.2％和21.3％。值得注意的是，尽管训练数据有限，但AlcLaM在各种阿拉伯语NLP任务中表现出了卓越的性能。AlcLaM可在GitHub https://github.com/amurtadha/Alclam和HuggingFace https://huggingface.co/rahbi上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决阿拉伯语方言在自然语言处理中的性能问题，通过构建阿拉伯语方言语料库和使用BERT模型进行重新训练来提高性能。
关键思路

论文的关键思路是使用社交媒体平台上的阿拉伯语方言语料库重新训练BERT模型，以提高阿拉伯语方言在自然语言处理中的性能。
其它亮点

论文使用了构建的阿拉伯语方言语料库来重新训练BERT模型，并取得了优异的性能表现。此外，论文提供了开源代码，方便其他研究者使用。
相关研究

在阿拉伯语自然语言处理领域，最近的相关研究包括CAMeL、MARBERT和ArBERT等模型的开发。

AlcLaM: Arabic Dialectal Language Model

提问交流

提问交流