- 简介我们介绍了Latxa,这是一系列巴斯克语的大型语言模型,范围从70亿到7亿个参数不等。Latxa基于Llama 2,我们在一个新的巴斯克语语料库上继续预训练,该语料库包括4.3M个文档和4.2B个标记。针对巴斯克语高质量基准数据的稀缺性,我们进一步引入了4个多项选择评估数据集:EusProficiency,包括来自官方语言能力考试的5,169个问题; EusReading,包括352个阅读理解问题; EusTrivia,包括来自5个知识领域的1,715个琐事问题; 以及EusExams,包括来自公共考试的16,774个问题。在我们广泛的评估中,Latxa在与之比较的所有先前的开放模型中表现出了很大的优势。此外,尽管在阅读理解和知识密集型任务方面落后,它在语言熟练度和理解方面与GPT-4 Turbo相竞争。Latxa系列模型以及我们的新预训练语料库和评估数据集都在https://github.com/hitz-zentroa/latxa上以开放许可证公开发布。我们的套件可以支持对为低资源语言构建LLM的方法进行可重复研究。
- 图表
- 解决问题Latxa论文试图解决Basque语言低资源问题,即如何建立适用于Basque的大型语言模型,并提供高质量的基准数据集。
- 关键思路Latxa基于Llama 2进行预训练,并使用4.3M文档和4.2B标记的新Basque语料库进行微调。同时,论文提供了4个多项选择评估数据集,并通过广泛的评估表明Latxa在Basque语言处理任务中表现优异。
- 其它亮点论文提供了可重复研究的Latxa模型、预训练语料库和评估数据集,并在Basque语言处理任务中展示了Latxa的高性能。此外,论文还提供了开源代码。
- 在这个领域中,最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《GPT-3: Language Models are Few-Shot Learners》。
沙发等你来抢
去评论
评论
沙发等你来抢