- 简介最近开发的大型语言模型(LLMs),如ChatGPT、Claude和Llama,展示了惊人的能力,甚至在几项任务中超过了人类水平。尽管它们取得了成功,但这些模型对资源的需求很高,需要显著的计算能力进行训练和推断,限制了它们在高性能服务器上的部署。此外,这些模型的广泛计算需求通常会导致响应时间的延迟增加。随着LLMs在CPU上高效运行的需求日益增加,针对优化CPU推断的轻量级模型的研究已经出现。在这项工作中,我们介绍了GEB-1.3B,这是一个在中英文中训练了5500亿个标记的轻量级LLM。我们采用了新颖的训练技术,包括ROPE、Group-Query-Attention和FlashAttention-2,以加速训练同时保持模型性能。此外,我们使用1000万个指令数据样本微调模型以增强对齐。GEB-1.3B在一般基准测试中表现出色,如MMLU、C-Eval和CMMLU,优于MindLLM-1.3B和TinyLLaMA-1.1B等比较模型。值得注意的是,GEB-1.3B的FP32版本在CPU上实现了可观的推断时间,目前正在通过先进的量化技术进一步提高速度。GEB-1.3B作为开源模型的发布,标志着对轻量级LLMs的发展做出了重大贡献,有望促进该领域的进一步研究和创新。
- 图表
- 解决问题论文旨在开发一种轻量级的大语言模型,以解决当前大语言模型需要大量计算资源和高延迟的问题。
- 关键思路通过使用ROPE、Group-Query-Attention和FlashAttention-2等新颖的训练技术,以及使用10百万份指令数据进行微调,开发了一个在中英文语料库上训练的轻量级大语言模型GEB-1.3B,并在CPU上获得了可观的推理时间。
- 其它亮点GEB-1.3B在多个基准测试中表现出色,包括MMLU、C-Eval和CMMLU。该模型的FP32版本在CPU上获得了良好的推理时间,并计划通过先进的量化技术进一步提高速度。此外,GEB-1.3B的开源释放为轻量级大语言模型的发展做出了重要贡献。
- 最近的相关研究包括MindLLM-1.3B和TinyLLaMA-1.1B等模型的开发。
沙发等你来抢
去评论
评论
沙发等你来抢