MzansiText and MzansiLM: An Open Corpus and Decoder-Only Language Model for South African Languages

向作者提问

NEW

简介

仅解码器语言模型可通过指令微调（instruction fine-tuning）适配至多种任务，但此类方法在小规模模型上对低资源语言的泛化能力究竟如何，目前仍不明确。我们聚焦于南非诸语言——据我们所知，当前尚无任何公开可用的仅解码器模型专门面向南非全部十一种官方书面语言，其中九种属于低资源语言。为此，我们构建了MzansiText：一个经过精心筛选的多语种预训练语料库，并配套提供可复现的过滤流程；同时，我们从零开始训练了MzansiLM：一个参数量为1.25亿的多语种语言模型。我们在自然语言理解（NLU）与自然语言生成（NLG）任务上对MzansiLM展开评估，共采用三种适应范式：单语任务专用微调（monolingual task-specific fine-tuning）、多语任务专用微调（multilingual task-specific fine-tuning）以及通用多任务指令微调（general multi-task instruction fine-tuning）。在数据到文本生成任务中，单语任务专用微调取得了优异性能，在祖鲁语（isiXhosa）上达到20.65的BLEU分数，且其表现可媲美参数量超其十倍以上的编码器–解码器基线模型。多语任务专用微调则在主题分类任务中显著提升了亲缘关系较近语言的性能，在祖鲁语新闻分类任务上实现了78.5%的宏平均F1值（macro-F1）。尽管MzansiLM在监督式NLU与NLG任务上展现出良好的适应能力，但在该模型规模下，少样本推理（few-shot reasoning）仍极具挑战性——即便对于规模大得多的仅解码器模型，其少样本推理性能亦仅略高于随机猜测水平。我们开源发布MzansiText与MzansiLM，旨在为南非诸语言提供一个可复现的仅解码器基线模型，并就小规模场景下的适配策略给出清晰、实用的指导建议。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在低资源语言（尤其是南非11种官方语言中的9种低资源语言）场景下，小型decoder-only语言模型能否通过指令微调等适应策略实现跨任务泛化？此前尚无公开的、专门面向全部南非官方语言的小型decoder-only基线模型，该问题在小规模（125M参数）和低资源 setting 下的有效性尚不明确。
关键思路

提出端到端可复现的解决方案：构建高质量、多语言、可复现过滤的预训练语料MzansiText，并从零训练轻量级decoder-only模型MzansiLM（125M）；系统评估三种适应范式——单语任务微调、多语任务微调、多任务指令微调——以揭示不同策略在低资源南非语言上的有效性边界，强调‘适配策略选择’比‘单纯扩大模型规模’对小模型更关键。
其它亮点

首次为南非全部11种官方书面语言建立统一、开源、可复现的预训练语料MzansiText及对应125M decoder-only模型MzansiLM；在isiXhosa数据到文本生成上达20.65 BLEU，超越十倍大 encoder-decoder 基线；多语微调在新闻主题分类中展现跨语言迁移能力（isiXhosa宏F1达78.5%）；明确指出小模型在few-shot推理上仍近随机水平，揭示能力瓶颈；全文代码、数据、模型全部开源；值得深入的方向包括：低资源语言的指令模板设计、语言子群感知的多语适配机制、小模型+检索增强的推理提升路径。
相关研究

AfriBERTa: Pre-trained Language Models for African Languages (2021); NaijaSenti: A Sentiment Analysis Dataset for Nigerian Languages (2022); MasakhaNER: Named Entity Recognition for African Languages (2021); XLM-RoBERTa for Low-Resource African Languages (ACL 2022); BLOOMZ and mT0: Multilingual Instruction Tuning at Scale (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问