DeepSeek-V3 Technical Report

DeepSeek-AI ,
Aixin Liu ,
Bei Feng ,
Bing Xue ,
Bingxuan Wang ,
Bochao Wu ,
Chengda Lu ,
Chenggang Zhao ,
Chengqi Deng ,
Chenyu Zhang ,
Chong Ruan ,
Damai Dai ,
Daya Guo ,
Dejian Yang ,
Deli Chen ,
Dongjie Ji ,
Erhang Li ,
Fangyun Lin ,
Fucong Dai ,
Fuli Luo ,
Guangbo Hao ,
Guanting Chen ,
Guowei Li ,
H. Zhang ,
Han Bao ,
Hanwei Xu ,
Haocheng Wang ,
Haowei Zhang ,
Honghui Ding ,
Huajian Xin ,
Huazuo Gao ,
Hui Li ,
Hui Qu ,
J. L. Cai ,
Jian Liang ,
Jianzhong Guo ,
Jiaqi Ni ,
Jiashi Li ,
Jiawei Wang ,
Jin Chen ,
Jingchang Chen ,
Jingyang Yuan ,
Junjie Qiu ,
Junlong Li ,
Junxiao Song ,
Kai Dong ,
Kai Hu ,
Kaige Gao ,
Kang Guan ,
Kexin Huang ,
Kuai Yu ,
Lean Wang ,
Lecong Zhang ,
Lei Xu ,
Leyi Xia ,
Liang Zhao ,
Litong Wang ,
Liyue Zhang ,
Meng Li ,
Miaojun Wang ,
Mingchuan Zhang ,
Minghua Zhang ,
Minghui Tang ,
Mingming Li ,
Ning Tian ,
Panpan Huang ,
Peiyi Wang ,
Peng Zhang ,
Qiancheng Wang ,
Qihao Zhu ,
Qinyu Chen ,
Qiushi Du ,
R. J. Chen ,
R. L. Jin ,
Ruiqi Ge ,
Ruisong Zhang ,
Ruizhe Pan ,
Runji Wang ,
Runxin Xu ,
Ruoyu Zhang ,
Ruyi Chen ,
S. S. Li ,
Shanghao Lu ,
Shangyan Zhou ,
Shanhuang Chen ,
Shaoqing Wu ,
Shengfeng Ye ,
Shengfeng Ye ,
Shirong Ma ,
Shiyu Wang ,
Shuang Zhou ,
Shuiping Yu ,
Shunfeng Zhou ,
Shuting Pan ,
T. Wang ,
Tao Yun ,
Tian Pei ,
Tianyu Sun ,
W. L. Xiao ,
Wangding Zeng ,
Wanjia Zhao ,
Wei An ,
Wen Liu ,
Wenfeng Liang ,
Wenjun Gao ,
Wenqin Yu ,
Wentao Zhang ,
X. Q. Li ,
Xiangyue Jin ,
Xianzu Wang ,
Xiao Bi ,
Xiaodong Liu ,
Xiaohan Wang ,
Xiaojin Shen ,
Xiaokang Chen ,
Xiaokang Zhang ,
Xiaosha Chen ,
Xiaotao Nie ,
Xiaowen Sun ,
Xiaoxiang Wang ,
Xin Cheng ,
Xin Liu ,
Xin Xie ,
Xingchao Liu ,
Xingkai Yu ,
Xinnan Song ,
Xinxia Shan ,
Xinyi Zhou ,
Xinyu Yang ,
Xinyuan Li ,
Xuecheng Su ,
Xuheng Lin ,
Y. K. Li ,
Y. Q. Wang ,
Y. X. Wei ,
Y. X. Zhu ,
Yang Zhang ,
Yanhong Xu ,
Yanhong Xu ,
Yanping Huang ,
Yao Li ,
Yao Zhao ,
Yaofeng Sun ,
Yaohui Li ,
Yaohui Wang ,
Yi Yu ,
Yi Zheng ,
Yichao Zhang ,
Yifan Shi ,
Yiliang Xiong ,
Ying He ,
Ying Tang ,
Yishi Piao ,
Yisong Wang ,
Yixuan Tan ,
Yiyang Ma ,
Yiyuan Liu ,
Yongqiang Guo ,
Yu Wu ,
Yuan Ou ,
Yuchen Zhu ,
Yuduan Wang ,
Yue Gong ,
Yuheng Zou ,
Yujia He ,
Yukun Zha ,
Yunfan Xiong ,
Yunxian Ma ,
Yuting Yan ,
Yuxiang Luo ,
Yuxiang You ,
Yuxuan Liu ,
Yuyang Zhou ,
Z. F. Wu ,
Z. Z. Ren ,
Zehui Ren ,
Zhangli Sha ,
Zhe Fu ,
Zhean Xu ,
Zhen Huang ,
Zhen Zhang ,
Zhenda Xie ,
Zhengyan Zhang ,
Zhewen Hao ,
Zhibin Gou ,
Zhicheng Ma ,
Zhigang Yan ,
Zhihong Shao ,
Zhipeng Xu ,
Zhiyu Wu ,
Zhongyu Zhang ,
Zhuoshu Li ,
Zihui Gu ,
Zijia Zhu ,
Zijun Liu ,
Zilin Li ,
Ziwei Xie ,
Ziyang Song ,
Ziyi Gao ,
Zizheng Pan
2024年12月27日
  • 简介
    我们推出了DeepSeek-V3,这是一个强大的专家混合(MoE)语言模型,总参数量为6710亿,每个token激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中已经得到了充分验证。此外,DeepSeek-V3首创了一种无需辅助损失的负载均衡策略,并设定了多token预测的训练目标以提升性能。我们在14.8万亿个多样且高质量的token上预训练了DeepSeek-V3,随后通过监督微调和强化学习阶段充分发挥其潜力。全面评估表明,DeepSeek-V3的表现优于其他开源模型,并且达到了与领先的闭源模型相当的性能。尽管性能出色,DeepSeek-V3的完整训练仅需2,788,000 H800 GPU小时。此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失激增或进行任何回滚操作。模型检查点可在https://github.com/deepseek-ai/DeepSeek-V3获取。
  • 图表
  • 解决问题
    该论文旨在开发一个高效且性能强大的Mixture-of-Experts (MoE) 语言模型,以解决当前大规模语言模型在参数量、训练效率和成本效益方面的挑战。这是一个持续优化的问题,但DeepSeek-V3在参数激活策略和训练效率方面提出了新的解决方案。
  • 关键思路
    DeepSeek-V3的关键思路在于通过Multi-head Latent Attention (MLA) 和DeepSeekMoE架构来实现高效的推理和成本效益高的训练。此外,它引入了无需辅助损失的负载均衡策略,并设定了多令牌预测训练目标以提升性能。相比现有研究,DeepSeek-V3不仅在参数规模上达到了671B,而且每次处理仅激活37B参数,显著降低了计算资源的需求。
  • 其它亮点
    亮点包括:1)使用14.8万亿高质量令牌进行预训练,随后进行监督微调和强化学习;2)整个训练过程非常稳定,没有出现不可恢复的损失激增或需要回滚的情况;3)尽管性能卓越,但DeepSeek-V3的训练仅需2.788M H800 GPU小时;4)模型检查点已开源,方便社区进一步研究。未来可继续深入研究如何进一步优化MoE模型的训练效率及应用范围。
  • 相关研究
    最近的相关研究包括《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》, 《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》, 和《Big Bird: Transformers for Longer Sequences》等。这些研究都致力于通过不同的方法来扩展和优化大规模语言模型,而DeepSeek-V3则在此基础上进一步探索了更有效的训练策略和架构设计。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论