大语言模型(LLM)的快速扩展揭示了当前硬件架构中的关键局限性,包括内存容量、计算效率和互连带宽方面的限制。DeepSeek-V3 在 2,048 个 NVIDIA H800 GPU 上进行训练,展示了如何通过硬件感知的模型协同设计有效应对这些挑战,从而实现大规模训练和推理的成本效益。本文深入分析了 DeepSeek-V3/R1 模型架构及其人工智能基础设施,重点介绍了多项创新技术,例如多头潜在注意力机制(MLA)以提高内存效率、专家混合(MoE)架构以优化计算与通信的权衡、FP8 混合精度训练以充分释放硬件潜力,以及多平面网络拓扑结构以最小化集群级别的网络开销。基于 DeepSeek-V3 开发过程中遇到的硬件瓶颈,我们与学术界和工业界的同行展开了更广泛的讨论,探讨了未来硬件发展的潜在方向,包括精确的低精度计算单元、向上扩展与向外扩展的融合,以及低延迟通信结构的创新。这些见解强调了硬件与模型协同设计在满足日益增长的人工智能工作负载需求中的关键作用,并为下一代人工智能系统的创新提供了实用的蓝图。