- 简介人们对于开发参数高达万亿的大型语言模型(LLM)的兴趣日益增长,但也引发了对资源效率和实践成本的担忧,特别是考虑到实验的巨大成本。这种情况凸显了探索小型语言模型(SLM)作为一种资源高效的替代方案的重要性。在这种情况下,作者介绍了MiniCPM,特别是1.2B和2.4B非嵌入参数变体,不仅在各自的类别中表现出色,而且展示了与7B-13B LLM相当的能力。虽然专注于SLM,但我们的方法在未来LLM研究中展现出了模型和数据维度的可扩展性。在模型扩展方面,我们采用了广泛的模型风洞实验,以实现稳定和最佳的扩展。在数据扩展方面,我们引入了一个Warmup-Stable-Decay(WSD)学习率调度器(LRS),有利于连续训练和领域自适应。我们对WSD LRS中出现的有趣的训练动态进行了深入分析。使用WSD LRS,我们现在能够高效地研究数据模型比例的扩展规律,而不需要在模型和数据的两个轴上进行大量的重新训练实验,从中得出了比Chinchilla Optimal更高的计算最优数据模型比例。此外,我们还介绍了MiniCPM系列,包括MiniCPM-DPO,MiniCPM-MoE和MiniCPM-128K,它们的卓越表现进一步巩固了MiniCPM在各种SLM应用中的基础。MiniCPM模型可在https://github.com/OpenBMB/MiniCPM上公开获取。
- 图表
- 解决问题论文旨在探索小型语言模型(SLMs)作为高效资源的替代品,解决大型语言模型(LLMs)开发中的资源效率和实际成本问题。
- 关键思路MiniCPM是一种高效的SLM,其1.2B和2.4B非嵌入式参数变体不仅在各自的类别中表现出色,而且展示了与7B-13B LLMs相当的能力。MiniCPM使用了模型风洞实验和Warmup-Stable-Decay(WSD)学习率调度器(LRS)进行模型和数据的稳定和优化扩展。
- 其它亮点MiniCPM家族包括MiniCPM-DPO、MiniCPM-MoE和MiniCPM-128K,其出色的性能进一步巩固了MiniCPM在不同SLM应用中的基础。MiniCPM模型在https://github.com/OpenBMB/MiniCPM上公开发布。实验设计详细,使用了WSD LRS进行数据和模型的扩展研究。
- 最近的研究包括使用小型模型进行自然语言处理的其他论文,如《TinyBERT: Distilling BERT for Natural Language Understanding》和《MobileBERT: Task-Agnostic Compression of BERT by Progressive Knowledge Transfer》。
沙发等你来抢
去评论
评论
沙发等你来抢