DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

简介

我们介绍了DeepSeek-V2，这是一个强大的混合专家语言模型，具有经济的训练和高效的推理特点。它包含2360亿个总参数，其中每个标记激活了21亿个参数，并支持128K个标记的上下文长度。DeepSeek-V2采用创新的架构，包括多头潜在注意力（MLA）和DeepSeekMoE。MLA通过将键值（KV）缓存显着压缩成潜在向量来保证高效推理，而DeepSeekMoE通过稀疏计算使得训练强大的模型成本经济。与DeepSeek 67B相比，DeepSeek-V2的性能显著更强，同时节省了42.5％的训练成本，将KV缓存减少了93.3％，并将最大生成吞吐量提高了5.76倍。我们在由81万亿个标记组成的高质量多源语料库上预训练DeepSeek-V2，并进一步进行监督微调（SFT）和强化学习（RL），以充分发挥其潜力。评估结果表明，即使仅激活21亿个参数，DeepSeek-V2及其聊天版本仍然在开源模型中实现了顶尖性能。
解决问题

论文旨在提出一种经济高效的深度学习模型DeepSeek-V2，来解决自然语言处理中的大规模语言建模问题。
关键思路

DeepSeek-V2采用了多种创新架构，包括多头潜在注意力（MLA）和DeepSeekMoE，以实现高效的推理和经济的训练。
其它亮点

DeepSeek-V2通过在8.1T令牌的高质量和多源语料库上进行预训练，并进一步进行监督微调和强化学习，取得了顶尖水平的性能表现。该模型的设计不仅大幅降低了训练成本，还显著提高了最大生成吞吐量。
相关研究

最近的相关研究包括GPT-3和Turing-NLG等模型。

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

评论