GECKO: Generative Language Model for English, Code and Korean

简介

我们介绍了GECKO，这是一个针对韩语和英语以及编程语言进行优化的双语大语言模型（LLM）。GECKO使用LLaMA架构在平衡、高质量的韩语和英语语料库上进行预训练。在本报告中，我们分享了为语料库构建更好的数据管道和训练模型的几个努力的经验。尽管其词汇量较小，但GECKO在生成韩语和英语的标记方面表现出极高的效率。我们在韩语、英语和代码方面的代表性基准测试中测量了其性能，它在KMMLU（韩语MMLU）方面表现出极高的性能，在英语和代码方面表现适中，即使与专注于英语的LLM相比，训练标记数量较少。GECKO在宽松许可证下向开源社区提供。我们希望我们的工作为韩语LLM研究提供研究基线和实际见解。该模型可在以下网址找到：https://huggingface.co/kifai/GECKO-7B。
图表
解决问题

GECKO旨在构建一个针对韩语和英语的双语大语言模型，解决双语语言模型在韩语方面的研究不足问题。
关键思路

GECKO采用LLaMA架构，在高质量的韩语和英语平衡语料库上进行预训练，通过改进数据管道和训练模型来提高效率和性能。
其它亮点

论文通过在代表性基准测试中测量性能来展示GECKO的性能，包括针对韩语、英语和编程语言的测试。GECKO在韩语方面表现出色，在英语和编程语言方面表现适中。此外，GECKO在开源社区中可用，并提供了许可证。
相关研究

最近在双语语言模型领域的相关研究包括：《ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation》、《Multi-Task Learning for Bilingual Neural Machine Translation with Similar Languages》等。

GECKO: Generative Language Model for English, Code and Korean

评论