- 简介我们提出了DeepSeek-V2,这是一个强大的混合专家(MoE)语言模型,具有经济的训练和高效的推理。它包括236B个总参数,其中每个令牌激活21B个参数,支持128K令牌的上下文长度。DeepSeek-V2采用创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将Key-Value(KV)缓存显着压缩为潜在向量来保证高效推理,而DeepSeekMoE通过稀疏计算实现经济成本下训练强大模型。与DeepSeek 67B相比,DeepSeek-V2的性能显著更强,同时节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提高了5.76倍。我们在一个由8.1T令牌组成的高质量和多源语料库上预训练DeepSeek-V2,然后进行监督微调(SFT)和强化学习(RL)以充分发挥其潜力。评估结果表明,即使只有21B个激活参数,DeepSeek-V2及其聊天版本仍然在开源模型中实现了顶尖性能。
- 图表
- 解决问题论文旨在提出一种经济高效的Mixture-of-Experts(MoE)语言模型,以提高自然语言处理任务的性能。
- 关键思路DeepSeek-V2采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE,以在经济高效的情况下训练强大的模型。
- 其它亮点DeepSeek-V2具有236B总参数,支持128K令牌的上下文长度。MLA通过将KV缓存显着压缩成潜在向量来保证高效推理,而DeepSeekMoE通过稀疏计算实现经济高效的模型训练。DeepSeek-V2在8.1T令牌的高质量和多源语料库上进行预训练,并进一步进行监督微调和强化学习以充分发挥其潜力。
- 在这个领域中,还有一些相关的研究,如GPT-3,T5和BERT。
沙发等你来抢
去评论
评论
沙发等你来抢