- 简介这篇技术报告介绍了为泰语开发的一系列大型语言模型(LLMs)Typhoon的挑战和见解,包括数据准备、预训练、指令调整和评估。由于低资源语言的一个挑战是预训练数据的数量,因此我们应用了连续训练来转移现有的世界知识,以强大的LLM为基础。为了评估预训练阶段每个模型所包含的泰语知识,我们开发了ThaiExam,这是一个基于泰国高中学生和投资专业人士考试的基准。此外,我们对Typhoon进行微调,以遵循泰语指令,并在泰语指令数据集以及翻译、摘要和问答任务上评估指令调整模型。在一系列泰语基准测试中,实验结果表明Typhoon优于所有开源泰语语言模型,其性能与GPT-3.5在泰语上相当,而仅具有70亿参数,在标记化泰语文本方面效率提高了2.62倍。
- 图表
- 解决问题本论文旨在解决泰语语言模型开发中的挑战和问题,包括数据准备、预训练、微调和评估。同时,论文也试图验证使用连续训练来转移现有世界知识的有效性。
- 关键思路使用连续训练的方式,结合泰语语言特点,开发出一种高效的泰语大型语言模型 Typhoon,并通过泰语考试基准测试其性能。
- 其它亮点论文使用了泰语考试基准 ThaiExam 进行了性能测试,并在翻译、摘要和问答等任务上进行了评估。实验结果表明 Typhoon 在各项任务中表现优异,性能与 GPT-3.5 相当,且参数更少、分词效率更高。此外,论文的数据集和代码也被开源。
- 近期的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-3: Language Models are Few-Shot Learners》等。
沙发等你来抢
去评论
评论
沙发等你来抢