- 简介对于开发具有万亿参数的大型语言模型(LLMs)的兴趣不断增长,但人们对资源效率和实际成本的担忧也随之而来,特别是考虑到巨大的实验成本。这种情况凸显了探索小型语言模型(SLMs)作为一种资源高效的替代方案的重要性。在这个背景下,我们介绍了MiniCPM,特别是1.2B和2.4B非嵌入参数变体,不仅在各自的类别中表现优异,而且展示了与7B-13B LLMs相当的能力。虽然专注于SLMs,但我们的方法在未来LLM研究中展现了模型和数据维度的可扩展性。关于模型扩展,我们采用了广泛的模型风洞实验,以实现稳定和最优的扩展。对于数据扩展,我们引入了一种温升稳定衰减(WSD)学习率调度器(LRS),有利于持续训练和领域适应。我们对WSD LRS中出现的有趣训练动态进行了深入分析。有了WSD LRS,我们现在能够高效地研究数据-模型缩放规律,而无需在模型和数据的两个轴上进行大量的重新训练实验,从中得出比Chinchilla Optimal更高的计算最优数据-模型比率。此外,我们介绍了MiniCPM系列,包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,它们的优异性能进一步巩固了MiniCPM在各种SLM应用中的基础。MiniCPM模型公开可用于https://github.com/OpenBMB/MiniCPM。
- 图表
- 解决问题论文介绍了MiniCPM这种小型语言模型的研究,试图探索小型语言模型作为资源高效的替代方案。同时也探讨了数据和模型维度的可扩展性。
- 关键思路论文提出了MiniCPM模型,通过模型风洞实验和Warmup-Stable-Decay学习率调度器的使用,实现了小型语言模型的优化和稳定训练,并得出了数据和模型维度的最佳比例。
- 其它亮点论文提供了MiniCPM家族的多个模型,包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,这些模型在不同的任务上表现出色。此外,论文的代码和模型都已经公开。
- 最近的相关研究包括GPT-3等大型语言模型的研究。
沙发等你来抢
去评论
评论
沙发等你来抢