MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

2024年04月09日
  • 简介
    对于开发具有万亿参数的大型语言模型(LLMs)的兴趣不断增长,但人们对资源效率和实际成本的担忧也随之而来,特别是考虑到巨大的实验成本。这种情况凸显了探索小型语言模型(SLMs)作为一种资源高效的替代方案的重要性。在这个背景下,我们介绍了MiniCPM,特别是1.2B和2.4B非嵌入参数变体,不仅在各自的类别中表现优异,而且展示了与7B-13B LLMs相当的能力。虽然专注于SLMs,但我们的方法在未来LLM研究中展现了模型和数据维度的可扩展性。关于模型扩展,我们采用了广泛的模型风洞实验,以实现稳定和最优的扩展。对于数据扩展,我们引入了一种温升稳定衰减(WSD)学习率调度器(LRS),有利于持续训练和领域适应。我们对WSD LRS中出现的有趣训练动态进行了深入分析。有了WSD LRS,我们现在能够高效地研究数据-模型缩放规律,而无需在模型和数据的两个轴上进行大量的重新训练实验,从中得出比Chinchilla Optimal更高的计算最优数据-模型比率。此外,我们介绍了MiniCPM系列,包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,它们的优异性能进一步巩固了MiniCPM在各种SLM应用中的基础。MiniCPM模型公开可用于https://github.com/OpenBMB/MiniCPM。
  • 图表
  • 解决问题
    论文介绍了MiniCPM这种小型语言模型的研究,试图探索小型语言模型作为资源高效的替代方案。同时也探讨了数据和模型维度的可扩展性。
  • 关键思路
    论文提出了MiniCPM模型,通过模型风洞实验和Warmup-Stable-Decay学习率调度器的使用,实现了小型语言模型的优化和稳定训练,并得出了数据和模型维度的最佳比例。
  • 其它亮点
    论文提供了MiniCPM家族的多个模型,包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,这些模型在不同的任务上表现出色。此外,论文的代码和模型都已经公开。
  • 相关研究
    最近的相关研究包括GPT-3等大型语言模型的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论