我们推出了DeepSeek-V3,这是一个强大的专家混合(MoE)语言模型,总参数量为6710亿,每个token激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中已经得到了充分验证。此外,DeepSeek-V3首创了一种无需辅助损失的负载均衡策略,并设定了多token预测的训练目标以提升性能。我们在14.8万亿个多样且高质量的token上预训练了DeepSeek-V3,随后通过监督微调和强化学习阶段充分发挥其潜力。全面评估表明,DeepSeek-V3的表现优于其他开源模型,并且达到了与领先的闭源模型相当的性能。尽管性能出色,DeepSeek-V3的完整训练仅需2,788,000 H800 GPU小时。此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失激增或进行任何回滚操作。模型检查点可在https://github.com/deepseek-ai/DeepSeek-V3获取。