DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

2025年12月02日
  • 简介
    我们推出 DeepSeek-V3.2,这是一款在保持卓越推理与智能体性能的同时,兼具高计算效率的模型。DeepSeek-V3.2 的核心技术突破包括以下三个方面:(1)DeepSeek 稀疏注意力机制(DSA):我们提出 DSA,这是一种高效的注意力机制,能够在长上下文场景中显著降低计算复杂度,同时保持模型性能。(2)可扩展的强化学习框架:通过实施稳健的强化学习协议并扩大后训练阶段的计算投入,DeepSeek-V3.2 的表现已达到与 GPT-5 相当的水平。特别值得一提的是,我们的高算力版本 DeepSeek-V3.2-Speciale 不仅超越了 GPT-5,在推理能力上更与 Gemini-3.0-Pro 持平,并在 2025 年国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中均取得了金牌级别的优异成绩。(3)大规模智能体任务合成管线:为了将推理能力融入工具使用场景,我们开发了一种全新的合成管线,能够系统性地大规模生成训练数据。该方法支持可扩展的智能体后训练,显著提升了模型在复杂交互环境中的泛化能力以及遵循指令的鲁棒性。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在保持高效计算的同时提升大模型在长上下文、复杂推理和智能体任务中的性能问题。特别是如何在降低注意力机制计算复杂度的前提下,不牺牲模型在数学推理、编程竞赛和工具使用等高难度任务上的表现。这个问题随着模型规模扩大和应用场景复杂化变得愈发重要,虽然已有部分研究关注效率与性能的平衡,但实现三者(效率、推理、代理能力)协同优化仍是一个较新的挑战。
  • 关键思路
    DeepSeek-V3.2提出了三项核心技术:首先是DeepSeek Sparse Attention(DSA),一种新型稀疏注意力机制,在长序列场景下显著降低计算开销同时保持性能;其次采用可扩展的强化学习框架进行后训练,使模型在高强度推理任务上达到甚至超越GPT-5水平;最后构建了大规模的智能体任务合成管道,自动生成高质量的推理-工具交互训练数据,从而增强模型在复杂环境中的泛化与指令遵循能力。相比现有工作,该方法系统性地整合了高效架构设计、强化学习优化与数据合成机制,实现了性能与效率的双重突破。
  • 其它亮点
    模型在IMO 2025和IOI 2025等国际顶尖学科竞赛中取得金牌成绩,验证了其卓越的推理能力;DeepSeek-V3.2-Speciale版本在多项基准上超越GPT-5并媲美Gemini-3.0-Pro。实验设计涵盖数学证明、代码生成、多步工具调用等复杂任务,使用了合成数据与真实竞赛题作为测试集。目前尚未公开代码与训练数据细节,但其提出的DSA机制和合成数据流水线为后续高效模型研究提供了新方向,值得进一步探索其在轻量化部署与自主智能体中的应用。
  • 相关研究
    1. 'Sparse Transformers' by Child et al., 2019 2. 'FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness' by Dao & Rush, 2022 3. 'Reinforcement Learning from Human Feedback (RLHF): A Survey' by Ouyang et al., 2022 4. 'Scaling Reinforcement Learning for Long-Horizon Reasoning' by Google DeepMind, 2024 5. 'Toolformer: Language Models Can Teach Themselves to Use Tools' by Press et al., 2023 6. 'AgentScope: A Framework for Multi-Agent Simulation and Evaluation' by Alibaba, 2024
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问