- 简介大语言模型(LLMs)的快速发展并未在低资源语言的评估方面得到相应体现,尤其是老挝语等东南亚语言。为填补这一空白,我们推出了LaoBench,这是首个大规模、高质量、多维度的基准数据集,专门用于评估大语言模型在老挝语方面的综合语言理解与推理能力。LaoBench包含超过17,000个精心筛选的样本,涵盖三个核心维度:知识应用、中小学基础教育以及老挝语、中文和英语之间的双语翻译。该数据集分为开源和闭源两个子集,其中闭源部分可在官方平台上进行黑箱评估,以确保公平性和数据安全。我们的数据构建流程结合了专家人工筛选与自动化智能体辅助验证,确保了语言准确性、文化相关性以及教育价值。在LaoBench上对多个最先进的大语言模型进行基准测试的结果表明,当前模型在处理多样化的老挝语任务时仍面临显著挑战。我们希望LaoBench能够推动针对代表性不足的东南亚语言的人工智能技术研究与开发。
-
- 图表
- 解决问题当前大语言模型(LLMs)在低资源语言,特别是老挝语等东南亚语言上的评估严重不足。尽管LLMs快速发展,但缺乏高质量、多维度的基准测试来系统评估其在这些语言中的语言理解与推理能力。这是一个尚未被充分探索的新问题。
- 关键思路提出LaoBench——首个面向老挝语的大规模、高质量、多维基准数据集,涵盖知识应用、基础教育(K12)和中英老三语翻译三大维度。通过结合专家人工构建与智能体辅助验证的数据构建流程,确保语言准确性与文化相关性,并设计开源与闭源双子集以支持公平、安全的模型评估。
- 其它亮点LaoBench包含超过17,000个精心整理的样本;采用人类专家与AI代理协同的混合数据构建 pipeline;设立闭源子集用于官方平台上的黑盒评估,保障数据安全与评测公正;实验评估了多个最先进的LLMs,结果显示现有模型在老挝语任务上表现仍不理想;目前数据集部分公开,推动对东南亚低资源语言的AI研究。
- 1. 'Flores-101: A Multilingual Benchmark for Low-Resource and Language-Agnostic Evaluation of Machine Translation Systems' 2. 'XBench: Towards a Native Multi-modal Benchmark for Low-resource Languages' 3. 'IndicGLUE: A Natural Language Understanding Benchmark for Indian Languages' 4. 'AfriBERTa: Language Model Pretraining for African Languages' 5. 'SEALLM: A Large Language Model for Southeast Asian Languages'
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流