GEB-1.3B: Open Lightweight Large Language Model

2024年06月14日
  • 简介
    最近开发的大型语言模型(LLMs),如ChatGPT、Claude和Llama,展示了惊人的能力,甚至在几项任务中超过了人类水平。尽管它们取得了成功,但这些模型对资源的需求很高,需要显著的计算能力进行训练和推断,限制了它们在高性能服务器上的部署。此外,这些模型的广泛计算需求通常会导致响应时间的延迟增加。随着LLMs在CPU上高效运行的需求日益增加,针对优化CPU推断的轻量级模型的研究已经出现。在这项工作中,我们介绍了GEB-1.3B,这是一个在中英文中训练了5500亿个标记的轻量级LLM。我们采用了新颖的训练技术,包括ROPE、Group-Query-Attention和FlashAttention-2,以加速训练同时保持模型性能。此外,我们使用1000万个指令数据样本微调模型以增强对齐。GEB-1.3B在一般基准测试中表现出色,如MMLU、C-Eval和CMMLU,优于MindLLM-1.3B和TinyLLaMA-1.1B等比较模型。值得注意的是,GEB-1.3B的FP32版本在CPU上实现了可观的推断时间,目前正在通过先进的量化技术进一步提高速度。GEB-1.3B作为开源模型的发布,标志着对轻量级LLMs的发展做出了重大贡献,有望促进该领域的进一步研究和创新。
  • 图表
  • 解决问题
    论文旨在开发一种轻量级的大语言模型,以解决当前大语言模型需要大量计算资源和高延迟的问题。
  • 关键思路
    通过使用ROPE、Group-Query-Attention和FlashAttention-2等新颖的训练技术,以及使用10百万份指令数据进行微调,开发了一个在中英文语料库上训练的轻量级大语言模型GEB-1.3B,并在CPU上获得了可观的推理时间。
  • 其它亮点
    GEB-1.3B在多个基准测试中表现出色,包括MMLU、C-Eval和CMMLU。该模型的FP32版本在CPU上获得了良好的推理时间,并计划通过先进的量化技术进一步提高速度。此外,GEB-1.3B的开源释放为轻量级大语言模型的发展做出了重要贡献。
  • 相关研究
    最近的相关研究包括MindLLM-1.3B和TinyLLaMA-1.1B等模型的开发。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论