- 简介随着大语言模型(LLMs)的迅速发展,我们推出了 Hunyuan-TurboS,这是一款全新的大型混合 Transformer-Mamba 专家混合(MoE)模型。它将 Mamba 在长序列处理上的高效性与 Transformer 在上下文理解上的优越性能协同结合。Hunyuan-TurboS 引入了一种自适应的长短链式思维(CoT)机制,能够动态切换简单查询的快速响应模式和复杂问题的深度“思考”模式,从而优化计算资源的使用。在架构上,这款激活参数为 560 亿(总参数量 5600 亿)的模型采用了 128 层结构(包括 Mamba2、注意力机制和前馈网络 FFN),并创新性地使用了 AMF/MF 块模式。更快的 Mamba2 确保了线性复杂度,分组查询注意力(Grouped-Query Attention)最小化了 KV 缓存,而 FFNs 则采用了 MoE 结构。该模型基于 16 万亿高质量 token 进行预训练,支持 256K 的上下文长度,并成为首个在工业界部署的大规模 Mamba 模型。通过全面的后训练策略,我们进一步提升了其能力,具体包括监督微调(300 万条指令)、一种新颖的长短链式思维融合方法、多轮审议学习以实现迭代改进,以及针对 STEM 和通用指令跟随的两阶段大规模强化学习过程。评估结果显示,该模型表现出色:在 LMSYS 聊天机器人竞技场中总体排名第七,得分为 1356,超越了 Gemini-2.0-Flash-001(1352 分)和 o4-mini-2025-04-16(1345 分)等领先模型。TurboS 在 23 个自动化基准测试中的平均表现达到了 77.9%。Hunyuan-TurboS 在高性能和高效率之间取得了平衡,在推理成本低于许多推理模型的情况下提供了强大的能力,为高效的超大规模预训练模型树立了新的标杆。
-
- 图表
- 解决问题该论文试图解决如何在大规模语言模型中平衡性能与效率的问题,特别是在处理长序列和复杂推理任务时。这是一个持续优化的问题,但通过结合Mamba架构和Transformer的特性,提出了新的解决方案。
- 关键思路论文的关键思路是设计一个混合架构——Hunyuan-TurboS,它结合了Mamba的高效长序列处理能力和Transformer的强大上下文理解能力。此外,还引入了动态调整的长-短链式思维机制(CoT),以适应不同复杂度的任务需求。相比现有研究,这种混合架构以及自适应计算资源分配机制是一个创新点。
- 其它亮点论文值得关注的地方包括:1) 支持256K上下文长度,远超现有模型;2) 使用16万亿高质量token进行预训练,提升了模型泛化能力;3) 提出了多阶段后训练策略,包括监督微调、迭代改进学习和强化学习;4) 在LMSYS Chatbot Arena上表现优异,排名前7,并在23个自动化基准测试中平均得分77.9%;5) 模型参数规模达到560B,激活参数为56B,显示了高效性。目前未提及代码是否开源,但其架构设计值得进一步研究。
- 最近的相关研究包括Google的Gemini系列模型、阿里云的通义千问(Qwen)系列以及Meta的Llama系列。这些模型也在探索高效的大规模架构和长序列处理能力。例如,《Scaling Laws for Autoregressive and Bidirectional Transformer Language Models》探讨了模型扩展规律,《Mamba: Efficient Transformers for Long-Range Dependency Modeling》专注于长序列建模,《Gemini: A Collection of Large Language Models》介绍了多模态和高性能推理技术。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流