- 简介低资源语言由于数字化、结构化语言数据严重匮乏,在自然语言处理领域面临独特挑战。为弥补这一缺口,加纳国家语言处理(GhanaNLP)倡议项目开发并整理了涵盖特维语(Twi)、芳蒂语(Fante)、埃维语(Ewe)、加语(Ga)和库萨尔语(Kusaal)的平行句对语料库,共计41,513组;这些语言在加纳广泛使用,却在数字空间中长期处于代表性不足的状态。每个语料库均由本地语言与英语之间经过精细对齐的句子对构成。所有数据均由专业人员人工采集、翻译与标注,并辅以标准化的结构化元数据进行增强,以确保数据的一致性与可用性。这些语料库旨在支持科研、教育及商业应用,包括机器翻译、语音技术以及语言保护工作。本文系统阐述了该语料库的构建方法、数据结构、预期应用场景与评估结果,并介绍了其在实际应用中的部署情况,例如“卡雅”(Khaya)AI翻译引擎。总体而言,本项工作通过赋能包容、可及的非洲语言人工智能技术,为推动人工智能的普惠化发展作出了重要贡献。
-
- 图表
- 解决问题低资源非洲语言(如Twi、Fante、Ewe、Ga、Kusaal)在NLP领域严重缺乏高质量、人工校验的平行语料,导致机器翻译、语音技术及语言保护等应用难以落地;这是一个长期存在且亟待系统性解决的新颖实践问题——尤其在非洲本土语言数字化基建层面。
- 关键思路通过规模化、专业化、标准化的人工协同流程(母语译员+语言学家+结构化元数据标注),构建首个面向加纳五大语言的高质量、开源、可复现的平行句对语料库(41,513句对),并直接集成至生产级AI系统(如Khaya AI翻译引擎),将数据建设与真实世界部署闭环结合——区别于依赖自动挖掘或迁移学习的主流低资源方案,强调‘人本可信数据先行’。
- 其它亮点• 数据全部由母语专业译员人工翻译与对齐,附带标准ISO语言码、句子ID、来源标注等结构化元数据;• 已开源发布(GhanaNLP GitHub),支持MT、ASR、教育工具等多场景;• 实际部署于Khaya AI引擎,实现端到端工业验证;• 论文详述了采集伦理审查、质量控制协议(双人校验+专家抽样评估)及跨方言一致性处理策略;值得深入的方向包括:零样本跨语言迁移泛化、语音-文本联合对齐扩展、以及社区驱动的持续更新机制。
- • 'Masakhane: Participatory Research for Low-Resource NLP in Africa' (ACL 2021); • 'The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation' (arXiv 2022); • 'JW300: A Wide-Coverage Parallel Corpus for Low-Resource Languages' (LREC 2020); • 'African Language Translation Datasets: Survey and Gaps' (EMNLP 2023 Workshop on African NLP)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流