- 简介我们推出了ALLaM: Arabic Large Language Model,这是一系列大型语言模型,旨在支持阿拉伯语言技术生态系统(ALT)。ALLaM考虑了语言对齐和知识传递的价值,在大规模训练过程中进行了精心训练。我们的自回归仅解码器架构模型表明,通过词汇扩展和在混合的阿拉伯语和英语文本上进行预训练,第二语言习得可以将模型引向新语言(阿拉伯语),而不会在原始语言(英语)上发生灾难性的遗忘。此外,我们强调使用平行/翻译数据来帮助语言之间的知识对齐过程的有效性。最后,我们表明,与低质量对齐的更大规模的模型相比,与人类偏好的广泛对齐可以显著提高语言模型的性能。ALLaM在各种阿拉伯基准测试中均取得了最先进的性能,包括MMLU阿拉伯语、ACVA和阿拉伯语考试。我们的对齐模型在阿拉伯语和英语方面都比其基础对齐模型有所提高。
- 图表
- 解决问题ALLaM试图支持阿拉伯语言技术生态系统(ALT)的发展,解决阿拉伯语言模型训练中的对齐和知识转移问题。
- 关键思路ALLaM采用自回归解码器架构,结合阿拉伯语和英语文本的预训练,实现了对阿拉伯语的新语言习得和英语语言知识的保留。同时,使用平行/翻译数据有助于促进不同语言之间的知识对齐。
- 其它亮点ALLaM在多项阿拉伯基准测试中取得了最先进的性能,包括MMLU阿拉伯语、ACVA和阿拉伯语考试等。此外,ALLaM还展示了与人类偏好的广泛对齐可以显著提高语言模型的性能。
- 最近在这个领域中的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。
沙发等你来抢
去评论
评论
沙发等你来抢