DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

简介

我们介绍了DeepSeek-V2，这是一个强大的混合专家(MoE)语言模型，具有经济的训练和高效的推理。它包含236B个总参数，其中每个标记激活了21B个参数，并支持128K个标记的上下文长度。DeepSeek-V2采用创新的架构，包括多头潜在注意力(MLA)和DeepSeekMoE。 MLA通过将键值(KV)缓存显着压缩为潜在向量来保证高效推理，而DeepSeekMoE通过稀疏计算使训练强大的模型成本经济。与DeepSeek 67B相比，DeepSeek-V2的性能显著更强，同时节省了42.5%的训练成本，将KV缓存减少了93.3%，并将最大生成吞吐量提高了5.76倍。我们在由81T个标记组成的高质量和多源语料库上预训练DeepSeek-V2，并进一步进行监督微调(SFT)和强化学习(RL)以充分发挥其潜力。评估结果表明，即使只有21B个激活参数，DeepSeek-V2及其聊天版本仍然在开源模型中实现了顶级性能。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在提出一种经济高效的语言模型DeepSeek-V2，解决大规模自然语言处理时训练成本高、推理速度慢的问题。
关键思路

DeepSeek-V2采用了创新的架构，包括Multi-head Latent Attention (MLA)和DeepSeekMoE，其中MLA通过将Key-Value (KV)缓存压缩成潜在向量，保证了推理的高效性，DeepSeekMoE通过稀疏计算，在经济的成本下训练强大的模型。
其它亮点

DeepSeek-V2具有236B总参数，支持128K tokens的上下文长度，相比DeepSeek 67B，DeepSeek-V2在性能上取得了显著提升，同时节省了42.5%的训练成本，将KV缓存减少了93.3%，并将最大生成吞吐量提高了5.76倍。论文使用了8.1T tokens的高质量多源语料库进行预训练，并进行了监督微调和强化学习。
相关研究

近期在这个领域中，还有一些相关研究，例如GPT-3和T5等。

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

提问交流

提问交流