DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

2024年05月07日
  • 简介
    我们提出了DeepSeek-V2,这是一个强大的混合专家(MoE)语言模型,其特点是经济的训练和高效的推理。它包括236B的总参数,其中每个标记激活21B,并支持128K标记的上下文长度。DeepSeek-V2采用创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将键值(KV)缓存显着压缩为潜在向量来保证高效的推理,而DeepSeekMoE通过稀疏计算使训练强大的模型成本经济。与DeepSeek 67B相比,DeepSeek-V2实现了显著更强的性能,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提高了5.76倍。我们在由8.1T标记组成的高质量和多源语料库上预训练DeepSeek-V2,进一步进行监督微调(SFT)和强化学习(RL),以充分发挥其潜力。评估结果表明,即使只有21B激活参数,DeepSeek-V2及其聊天版本仍然在开源模型中实现了顶尖性能。模型检查点可在"https://github.com/deepseek-ai/DeepSeek-V2"上获得。
  • 图表
  • 解决问题
    本论文旨在提出一种经济高效的Mixture-of-Experts(MoE)语言模型DeepSeek-V2,解决大规模语言建模中的效率和成本问题。
  • 关键思路
    DeepSeek-V2采用创新的架构,包括Multi-head Latent Attention(MLA)和DeepSeekMoE,实现了高效的推理和经济的训练。
  • 其它亮点
    DeepSeek-V2采用了高质量的多源语料库进行预训练,并进行了监督微调和强化学习,取得了优异的性能。相比DeepSeek 67B,DeepSeek-V2在性能上有了显著提升,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,最大的生成吞吐量提高了5.76倍。模型的检查点已经开源。
  • 相关研究
    在大规模语言建模领域,最近的相关研究包括GPT-3、T5等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论