MiniCPM4: Ultra-Efficient LLMs on End Devices

MiniCPM Team ,

Chaojun Xiao ,

Yuxuan Li ,

Xu Han ,

Yuzhuo Bai ,

Jie Cai ,

Haotian Chen ,

Wentong Chen ,

Xin Cong ,

Ganqu Cui ,

Ning Ding ,

Shengdan Fan ,

Yewei Fang ,

Zixuan Fu ,

Wenyu Guan ,

Yitong Guan ,

Junshao Guo ,

Yufeng Han ,

Bingxiang He ,

Yuxiang Huang ,

Cunliang Kong ,

Qiuzuo Li ,

Siyuan Li ,

Wenhao Li ,

Yanghao Li ,

Yishan Li ,

Zhen Li ,

Dan Liu ,

Biyuan Lin ,

Yankai Lin ,

Xiang Long ,

Quanyu Lu ,

Yaxi Lu ,

Peiyan Luo ,

Hongya Lyu ,

Litu Ou ,

Yinxu Pan ,

Zekai Qu ,

Qundong Shi ,

Zijun Song ,

Jiayuan Su ,

Zhou Su ,

Ao Sun ,

Xianghui Sun ,

Peijun Tang ,

Fangzheng Wang ,

Feng Wang ,

Shuo Wang ,

Yudong Wang ,

Yesai Wu ,

Zhenyu Xiao ,

Jie Xie ,

Zihao Xie ,

Yukun Yan ,

Jiarui Yuan ,

Kaihuo Zhang ,

Lei Zhang ,

Linyue Zhang ,

Xueren Zhang ,

Yudi Zhang ,

Hengyu Zhao ,

Weilin Zhao ,

Weilun Zhao ,

Yuanqian Zhao ,

Zhi Zheng ,

Ge Zhou ,

Jie Zhou ,

Wei Zhou ,

Zihan Zhou ,

Zixuan Zhou ,

Zhiyuan Liu ,

Guoyang Zeng ,

Chao Jia ,

Dahai Li ,

Maosong Sun

热度 184

2025年06月09日

简介

本文介绍了 MiniCPM4，这是一款专门为终端设备设计的高效大型语言模型（LLM）。我们通过在四个关键维度上的系统性创新实现了这一高效性：模型架构、训练数据、训练算法和推理系统。具体来说，在模型架构方面，我们提出了 InfLLM v2，这是一种可训练的稀疏注意力机制，能够加速长上下文处理中的预填充和解码阶段。在训练数据方面，我们提出了 UltraClean，这是一种高效且准确的预训练数据过滤与生成策略，同时还提出了 UltraChat v2，一个全面的监督微调数据集。这些数据集使得模型仅使用 8 万亿个训练 token 就能实现令人满意的性能。在训练算法方面，我们提出了 ModelTunnel v2，用于高效的预训练策略搜索，并通过引入分块式 rollout 来改进现有的后训练方法，以实现负载均衡的强化学习和数据高效的三元 LLM，即 BitCPM。在推理系统方面，我们提出了 CPM.cu，它集成了稀疏注意力、模型量化和投机采样技术，从而实现高效的预填充和解码。为了满足多样化的终端需求，MiniCPM4 提供了两个版本，分别包含 0.5B 和 8B 参数。充分的评估结果表明，MiniCPM4 在多个基准测试中优于开源的同规模模型，突显了其高效性和有效性。特别值得注意的是，MiniCPM4-8B 在处理长序列时相比 Qwen3-8B 显示出显著的速度提升。通过进一步适配，MiniCPM4 成功支持了多种应用，包括可信调查生成和基于模型上下文协议的工具使用，充分展示了其广泛的适用性。
图表
解决问题

该论文试图解决在端侧设备上部署大型语言模型（LLM）的效率和性能问题，特别是在长上下文处理和资源受限环境下的挑战。这是一个具有实际应用价值的问题，但并非全新的问题，因为已有许多研究关注如何优化LLM以适应边缘计算场景。
关键思路

论文提出了MiniCPM4，通过四个关键维度的创新来提升LLM在端侧设备上的效率：1) 提出InfLLM v2，一种可训练的稀疏注意力机制，加速长上下文处理；2) 使用UltraClean策略优化预训练数据，并通过UltraChat v2提供高质量的监督微调数据集；3) 引入ModelTunnel v2进行高效的预训练策略搜索，同时提出chunk-wise rollout和BitCPM优化强化学习和量化方法；4) 开发CPM.cu推理系统，整合稀疏注意力、模型量化和投机采样技术。这些创新共同提升了模型的效率和效果。
其它亮点

论文设计了全面的实验来验证MiniCPM4在多个基准测试中的表现，证明其在效率和效果上优于开源模型。特别是MiniCPM4-8B在长序列处理中显著快于Qwen3-8B。此外，论文提供了两个版本的模型（0.5B和8B参数），以满足不同的端侧需求，并展示了其在可信调查生成和工具使用等实际应用中的能力。数据集和代码的开源进一步增强了研究的可复现性和实用性，值得继续研究的方向包括更高效的稀疏注意力机制和更轻量级的模型架构。
相关研究

近期相关研究包括SparseGPT系列工作，探讨稀疏性在LLM中的应用；Llama系列模型，专注于开源高性能LLM的设计；以及Qwen系列模型，探索大规模多模态预训练的可能性。其他相关研究还包括DeepSpeed团队关于高效推理的工作，如DS-Inference，以及Google关于端侧优化的研究，如MobileBERT。值得注意的论文标题有《SparseGPT: Efficient Inference with Sparse Attention Patterns》、《Leveraging Sparsity for Fast Inference in Large Language Models》和《Efficient Pre-training Strategies for Large-Scale Language Models》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论