MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

简介

对于开发具有万亿参数的大型语言模型(LLMs)的兴趣不断增长，但人们对资源效率和实际成本的担忧也随之而来，特别是考虑到巨大的实验成本。这种情况凸显了探索小型语言模型(SLMs)作为一种资源高效的替代方案的重要性。在这个背景下，我们介绍了MiniCPM，特别是1.2B和2.4B非嵌入参数变体，不仅在各自的类别中表现优异，而且展示了与7B-13B LLMs相当的能力。虽然专注于SLMs，但我们的方法在未来LLM研究中展现了模型和数据维度的可扩展性。关于模型扩展，我们采用了广泛的模型风洞实验，以实现稳定和最优的扩展。对于数据扩展，我们引入了一种温升稳定衰减(WSD)学习率调度器(LRS)，有利于持续训练和领域适应。我们对WSD LRS中出现的有趣训练动态进行了深入分析。有了WSD LRS，我们现在能够高效地研究数据-模型缩放规律，而无需在模型和数据的两个轴上进行大量的重新训练实验，从中得出比Chinchilla Optimal更高的计算最优数据-模型比率。此外，我们介绍了MiniCPM系列，包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K，它们的优异性能进一步巩固了MiniCPM在各种SLM应用中的基础。MiniCPM模型公开可用于https://github.com/OpenBMB/MiniCPM。

图表

解决问题

论文介绍了MiniCPM这种小型语言模型的研究，试图探索小型语言模型作为资源高效的替代方案。同时也探讨了数据和模型维度的可扩展性。

关键思路

论文提出了MiniCPM模型，通过模型风洞实验和Warmup-Stable-Decay学习率调度器的使用，实现了小型语言模型的优化和稳定训练，并得出了数据和模型维度的最佳比例。

其它亮点

论文提供了MiniCPM家族的多个模型，包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K，这些模型在不同的任务上表现出色。此外，论文的代码和模型都已经公开。

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

评论