详解DeepSeek-V3：大模型训练加速神器，MoE焕发新生丨智源深度

在当前人工智能发展的主要议题中，可扩展且高效的AI模型占据了重要的位置。这不仅涉及到模型的性能，也涉及到如何在有限的计算资源下完成高效的运算。我国科技企业在过去的几年里，始终坚持着开发出能够解决更为复杂问题并处理更大数据量的模型的目标，而这一切并不需要依赖过多的计算能力。

在众多的人工智能技术中，大语言模型（LLM）以其强大的功能和广泛的应用，赢得了广大科技人员的喜爱。然而，这些模型的计算成本相对较高，特别是在资源受限的情况下，相对更难以应用。因此，如何在保证模型性能的同时，降低其计算成本，是我们当前面临的重要挑战之一。

作为解决此类问题的最优策略之一，一种名为Mixture-of-Experts（MoE，混合专家）的AI模型应运而生。MoE模型的独特之处在于，它将一个大模型划分为多个专注于特定任务的较小子网络，这些子网络被称为“专家”。这一机制使得模型能够在不增加计算成本的前提下，显著提升其处理和解决问题的能力。

MoE模型的这种设计理念，突破了传统的模型设计思维，实现了在有限的计算资源下，通过分割和组合的方式，实现了模型性能的显著提升。这种设计理念，不仅提供了一种全新的解决方案，同时也为研究者提供了全新的思考方式。

图1：Deepseek网站最新界面

DeepSeek-V3，作为语言建模领域的最新突破，便是MoE技术在大语言模型领域的成功应用。这个系统的设计理念是，对于任何特定的任务，只激活和使用最相关的“专家”，以此大幅度降低计算成本，同时保持高性能。这是一种颠覆性的创新，它将计算成本和模型性能的矛盾，转化为了可以并行解决的问题。

具体来说，DeepSeek-V3拥有惊人的6710亿参数，但在实际运行过程中，每个输入只会触发370亿参数，这使得它在维持高性能的同时，实现了计算效率和计算能力之间无与伦比的平衡。

这就好比在一座巨大的图书馆中，只去找自己需要的那几本书，而不是把所有的书都翻遍，既节省了时间，又保证了找到所需的信息。近期基于该模型上线的app带给了大家不小的震撼。接下来本文会介绍Deepseek-V3的主要特点、技术原理和未来前景。

▊Deepseek-V3主要特点

DeepSeek-V3通过应用其MoE（混合专家）架构，成功地实现了一系列的关键优势，其中效率的提升最为显著。它采用了一种独特的方法，即通过Mixture-of-Experts（MoE）模式，仅激活部分参数（例如，在总共6710亿参数中仅激活370亿），来应对任何输入。这种选择性激活的方式大大降低了计算成本，从而使DeepSeek-V3在保持高性能的同时，也能在计算资源的使用上保持高效。这种方法的优点在于，它在不牺牲性能的基础上，降低了对计算资源的需求。

换句话说，DeepSeek-V3的设计理念是，通过智能地选择激活哪些参数，而不是盲目地激活所有参数，从而实现了在有限的计算资源下，实现最优的表现。这种方法不仅提高了计算效率，也使得DeepSeek-V3能够在处理复杂任务时，表现出更高的性能。

在此基础上，DeepSeek-V3的MoE设计还具有出色的可扩展性。这一设计通过整合不同领域的“专家”，实现了模型的灵活扩展，无需将所有模型紧密集成在一起。通过这种模块化的设计，DeepSeek-V3能轻松地进行规模扩展，同时还能灵活地适应新的需求和挑战。这种模块化的设计方式，使得DeepSeek-V3能够根据需要，快速增加或减少“专家”，以适应不同的任务和环境。

这不仅大大提高了模型的灵活性，也使得模型能够更好地适应未来的改变和发展。此外，这种模块化的设计方式，还使得DeepSeek-V3能够轻松地整合新的评估方式，以适应新的需求，而无需进行新的训练过程。换句话说，通过对模型的“专家”进行灵活的组合和调整，我们可以在不改变现有训练结果的情况下，对模型进行进一步的优化和改进。

专业化是MoE架构的另一大优势，它允许各个“专家”被训练以执行特定领域的任务，以提升在特定领域的性能。这种专业化的策略使得DeepSeek-V3在处理某些专业任务，如编码和数学等领域时，能表现出超越其他模型的优秀性能。在MoE架构中，每一个“专家”都是针对特定任务进行优化的，这使得DeepSeek-V3在面对这些特定任务时，能够展现出卓越的性能。例如，对于编码任务，编码“专家”可以利用其深度学习的编码知识，有效地解决各种编码问题；对于数学任务，数学“专家”可以利用其深度学习的数学知识，有效地解决各种数学问题。

图2：DeepSeek-V3 基本架构示意图。团队采用了多头潜在注意力（MLA）和 DeepSeekMoE 架构，以实现高效推理和经济的训练。

同时，DeepSeek-V3在提高推理速度方面表现出色，这得益于其独特的选择性激活策略。在处理特定问题时，只有网络中的一部分“专家”会被激活，这极大地加快了推理速度。这种选择性激活策略有效地消除了处理响应的延迟，使得系统的交互更为迅速。这种快速响应的特性对于实时服务具有极其重要的意义。在许多情况下，如自动驾驶、在线游戏、实时翻译等应用场景中，系统需要在极短的时间内对输入做出反应，这就要求模型具有快速的推理能力。DeepSeek-V3通过其选择性激活策略，成功地满足了这一需求。

DeepSeek-V3通过其多功能和灵活的MoE架构，实现了多种潜在的功能和用途。首先是增强的代码生成和调试：DeepSeek-V3的MoE架构使得在专门的编程语言和编码风格上生成专家变得更为简单和直接。这种针对性的方法使得代码生成更为精确和高效，因为每一个特定的“专家”都专注于一个特定的任务，从而增强了代码的质量和效率。与此同时，相比于通用模型可能存在的随机性错误，这种有目标的编码会大大减少上下文错误，因为每个“专家”都对其专业领域有深入的理解和掌握。

其次是高级数学问题的解决：MoE架构使得DeepSeek-V3能够利用专门训练的数学专家来准确地解决高级数学问题。这些专家可以解决复杂的方程、逻辑证明以及大部分的定性数学问题。模型中的数学“专家”可以提升对数学的掌握能力，因为他们专门负责处理与数学相关的任务。这种专门化的方法使得模型在处理数学问题时，无论是在内容的理解还是解决方法上都能表现出更高的质量和准确性。

最后是下一代AI助手的发展：DeepSeek-V3系统集成了各个阶段的“专家”，这推动了下一代AI助手的发展。这些AI助手能够提供平衡且情境驱动的解决方案，覆盖了推理、编码和数学推理等各个领域。MoE的架构设计使得这些AI助手能够灵活地适应各种领域的变化，从而提供更好的服务给用户。

总的来说，DeepSeek-V3通过其强大的MoE架构，为我们提供了一种全新的解决方案，无论是在代码生成、高级数学问题的解决，还是在下一代AI助手的发展，它都展示出了强大的潜力和前景。

图3：Deepseek-V3在数学问题、代码生成上均取得不错的效果

▊Deepseek-V3的技术原理

DeepSeek-V3的核心是一个被称为DeepSeekMoE的结构，它为计算资源的管理提供了一种全新的方法。在这个系统中，根据当前任务的需要，系统会动态地激活其“专家”子集，以使系统能够更有效地扩展，而不会过载计算资源。这种架构的一个显著特点是其动态冗余策略。通过调整专家的分配，DeepSeek-V3可以在推理和训练过程中保持最佳的负载平衡。这就好比在一支足球队中，根据比赛的进程和对手的策略，动态调整队员的位置和任务，以保持最佳的攻防平衡。

总的来说，DeepSeek-V3是一种结合了效率和尖端技术的先进语言建模系统。它以全新的方式处理计算资源，通过动态激活相关的“专家”，使得在保持高性能的同时，大幅度降低了计算成本。具体来说，他的技术创新主要体现在如下方面：

首先是共享专家和路由专家。DeepSeek-V3 引入了两种利用其专家的创新方法：共享专家是指这些是处理常见任务的通用专家，可以跨多个请求共享。共享专家确保模型具有可靠的知识基础，可用于日常查询。路由专家是指根据任务的具体要求动态激活的路由专家。这些专家专注于特定或复杂问题，确保模型提供高度准确和上下文特定的结果。通过将共享和路由专家与动态冗余和统计负载调整相结合，DeepSeek-V3 确保了平衡的计算开销，而不影响性能。

其次是多头潜在注意力（MLA）。在传统的模型中，关键-值对通常会占用大量的内存空间，这在处理大规模数据或复杂任务时，往往会造成内存的过度消耗，甚至导致模型运行效率的大幅下降。而MLA通过将关键-值对压缩为紧凑的潜在向量，有效地解决了这个问题。这种压缩不仅大大降低了内存的需求，也使得模型在运行过程中更加流畅和高效。MLA 将关键-值缓存压缩为紧凑的潜在向量。这降低了运行模型的内存需求，确保在处理复杂任务时仍然保持高效。

DeepSeek-V3的另一个显著特点是其在专家间的工作负载平衡能力，这大大简化了模型的操作。通过直观地分配任务给各个“专家”，DeepSeek-V3避免了需要额外校正机制的需求。这种设计不仅简化了训练过程，还提高了模型的运行效率，使得DeepSeek-V3更适合处理大规模的应用。

在传统的模型中，往往需要额外的校正机制来平衡各个部分的工作负载，这不仅增加了模型的复杂性，也降低了模型的运行效率。而DeepSeek-V3通过直观地在其“专家”之间平衡工作负载，成功地避免了这一问题。这种设计使得模型在处理复杂任务时，仍能保持出色的性能和高效的运行。

此外，DeepSeek-V3在训练和推理过程中，保持了无令牌丢失。这是一个重大的进步，因为在传统的模型中，令牌丢失是一个常见的问题，它会导致模型在处理连续任务时，出现断层和错误。而DeepSeek-V3的这一设计，确保了模型在处理连续任务时，能够保持连续的处理，从而提高了模型的性能和稳定性。

图4：8 个 PP 排位和 20 个微批次在两个方向上的双管道调度示例。反向方向的微批次与前向方向的微批次对称，因此为简化说明，省略了反向微批次的批次 ID。两个由共享黑色边框围住的单元存在相互重叠的计算和通信。

DeepSeek-V3的另一项创新技术是引入了多令牌预测（Multi-Token Prediction，简称MTP）。这是一种新的预测模式，让模型能够同时预测多个令牌，而非传统的逐个预测。这种改变极大地提升了文本生成的流畅性、连贯性和速度。在这些应用中，快速和准确的文本生成是非常关键的。传统的逐令牌预测方式往往会导致生成的文本断断续续，影响了生成文本的流畅度和连贯性。

而DeepSeek-V3通过MTP，实现了快速且流畅的文本生成，大大提升了用户体验。值得一提的是，MTP不仅可以预测多个令牌，还能在顺序预测的过程中，保留每个深度的完整因果链。这意味着，即使在同时预测多个令牌时，DeepSeek-V3也能确保生成的输出在语义上的连贯性和完整性。这一特性使得DeepSeek-V3在处理复杂的文本任务时，能够生成高质量且连贯的文本。

图5：Deepseek-V3多令牌实施示意图（Multi-Token Prediction，MTP）

最后，DeepSeek-V3的效率优化还在于其融合了混合精度框架，这是一种结合了16位和32位浮点计算的策略，旨在在训练和推理过程中优化计算效率。通过巧妙地在不同的计算过程中切换使用16位和32位浮点数，DeepSeek-V3成功地减少了内存的使用，加快了计算速度，同时并未对模型的准确性产生负面影响。

在训练和推理的过程中，部分计算过程需要高精度的32位浮点数来确保准确性，而部分计算过程则可以使用精度稍低的16位浮点数来进行，从而节省内存，提高效率。DeepSeek-V3通过精确地识别和划分这两种计算过程，实现了在不损失准确性的前提下，优化内存使用和计算效率。

图6：带有 FP8 数据格式的整体混合精度框架。为清晰起见，仅展示了线性算子。

▊Deepseek-V3的前景分析

开发者们通过与其他强大的语言模型进行严格比较，已经令人信服地展示了DeepSeek-V3的出色性能。使用不同的基准测试来比较DeepSeek-V3与开源竞争对手（如Qwen2.5和LLaMA-3.1）以及闭源竞争对手（如GPT-4o和Claude-3.5-Sonnet）在英语和必要的中文语言任务方面的表现。

这些基准测试涵盖了各种关键领域：一般事实和知识（MMLU，MMLU-Pro），逻辑和理性（DROP，LongBench v2），编码（HumanEval-Mul，LiveCodeBench）和数学计算（AIME，MATH-500）。

分析结果显示，DeepSeek-V3在大多数时候也是最佳变体之一，与其他开源对手持平甚至在某些情况下表现更好，同时几乎总是与闭源基准持平或更好。除了这些比较标准外，还进行了其他一些测试和实验来评估DeepSeek-V3的能力。其中，例如，消融研究揭示了模型特定架构组件和训练策略的贡献。集成参考识别和顺序回忆的测试评估了DeepSeek-V3的性能，该模型可以处理文本序列的理解。更具体地说，编码和数学推理任务被特别强调从DeepSeek-V3的新架构中受益，同时报告认为从DeepSeek-R1进行的知识蒸馏尤其有益。

图7：Deepseek-V3与其他模型性能对比

具体来说，DeepSeek-V3、Phi-4和Llama 3.3作为大型语言模型进行比较具有各自的优势。由于DeepSeek-V3的架构是Mixture-of-Experts，并且使用了大量数据进行训练，在数学、编码和中文语言等特定基准测试中甚至能够击败闭源版本，但在其他方面表现明显不足，例如在英语的事实知识方面表现较差。

Phi-4是在合成和有机数据的混合上进行训练，更侧重于推理，在STEM问答和编码方面表现出色，有时甚至比其教师模型GPT-4o提供更准确的结果。其局限性包括较小的上下文窗口和易受幻觉影响。Llama 3.3优先考虑多语言对话和一般语言理解，具有更大的上下文窗口，适合处理扩展文本。尽管在多语言任务中表现良好，但它不具有Phi-4在STEM方面或DeepSeek-V3在中文方面的专注优势。

图8：英文开放式对话评估。在 AlpacaEval 2.0 中，V3使用“长度控制胜率”作为核心评估指标，以衡量模型在对话生成中的表现。

而他最大的优势在于快速且免费。DeepSeek-V3的快速性体现在其优秀的计算效率和高速的响应时间上。无论是处理复杂的任务，还是执行大规模的操作，DeepSeek-V3都能在短时间内给出准确的结果。这种快速的特性对于用户来说非常重要，因为在今天的快节奏社会中，时间就是效率，效率就是金钱。

而DeepSeek-V3的免费性则打破了AI技术的门槛，让更多的人能够接触并使用到这项先进的技术。在许多情况下，高昂的使用费用往往会阻碍普通用户使用AI产品。而DeepSeek-V3的免费策略，让更多的人能够享受到AI带来的便利和乐趣。

DeepSeek-V3在很多方面都表现出优异的性能，例如它的高测试准确性、低时间复杂度，以及在各种任务上的高效表现，这都赢得了广大用户和研究人员的赞誉。然而，尽管有这些优点，该研究仍存在一些潜在的缺陷。首先，该模型建议的大规模部署可能会给资源有限的团队带来挑战。DeepSeek-V3具有丰富的功能和复杂的架构，这意味着它需要相应的资源来支持。对于那些精简的团队来说，他们可能会在资源和技术上遇到困难，这可能会限制他们充分利用DeepSeek-V3的能力。

其次，尽管DeepSeek-V3在生成速度方面优于其前身，但在实践中，仍有提升空间。特别是在大规模并行处理和实时响应方面，DeepSeek-V3仍需进一步优化以提高其处理速度。这将非常关键，因为在许多实际应用中，例如在线聊天机器人或实时翻译工具，快速响应是至关重要的。

未来的研究工作将集中在进一步优化DeepSeek-V3的架构上，以增强其在训练和推理过程中的性能。这可能涉及对当前模型的根本性改变，例如放弃现有的Transformer架构。

Transformer架构虽然有其优点，但在某些情况下可能存在效率低下或资源消耗大的问题。通过寻找新的架构，有可能发现更高效、更节省资源的解决方案。另一个重要的研究方向是确定无限的理想上下文大小。在现有模型中，上下文大小往往受到限制，这可能会对模型的性能产生影响。

如果我们能确定一个理想的上下文大小，那么模型就能更好地理解和处理长篇的文本，从而提高其性能。同时，研究者们还可以专注于增强少样本学习的能力和稳定的对齐方法和更有效的强化学习奖励信号。少样本学习是一种重要的学习策略，它能使模型在只有少量样本的情况下也能进行有效的学习。

通过改进这方面的技术，我们可以让DeepSeek-V3在数据稀缺的情况下也能表现得很好。而对齐方法对于保证生成文本的质量至关重要，而强化学习奖励信号则是驱动模型学习的关键因素。通过优化这些技术，我们可以进一步提高DeepSeek-V3的性能。

▊小结

DeepSeek-V3的出现，是MoE框架在大语言模型领域一次很成功的实践。他的多样性和灵活性使得各类人群都可以从中受益。

首先，对于AI专家和研究者来说，DeepSeek-V3的混合专家（MoE）架构和训练方案提供了一种研究和实现大规模语言模型（LLM）的有力工具。这些先进的技术和方法为他们提供了深入探索AI和机器学习领域的可能性。对于各种组织和企业，DeepSeek-V3的灵活性和效率使其成为实施复杂自然语言处理（NLP）功能的理想选择。

无论是会话代理、代码生成模型，还是其他高级NLP功能，DeepSeek-V3都能提供出色的性能和稳定的结果。这使得组织可以更容易地将AI技术引入他们的工作流程，从而提高效率和效果。

对于广大公众，DeepSeek-V3提供了一种先进且适应性强的AI工具。它能提供更好的搜索、翻译和虚拟助手功能，有效改善信息处理流程，简化日常任务。无论是在工作中还是在日常生活中，DeepSeek-V3都能提供实用和便捷的帮助，从而提高生活的品质和效率。而这样一款产品的出现，也给我们做国产自主研发大模型注入了一针强心剂，也期待着我们未来的国产大模型越做越好！

- 推荐阅读 -

报告下载丨重磅！2025十大AI技术趋势

本文版权归智源社区所有

内容中包含的图片若涉及版权问题，请及时与我们联系删除

详解DeepSeek-V3：大模型训练加速神器，MoE焕发新生丨智源深度

评论