NEW

Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought

Tencent Hunyuan Team ,

Ao Liu ,

Botong Zhou ,

Can Xu ,

Chayse Zhou ,

ChenChen Zhang ,

Chengcheng Xu ,

Chenhao Wang ,

Decheng Wu ,

Dengpeng Wu ,

Dian Jiao ,

Dong Du ,

Dong Wang ,

Feng Zhang ,

Fengzong Lian ,

Guanghui Xu ,

Guanwei Zhang ,

Hai Wang ,

Haipeng Luo ,

Han Hu ,

Huilin Xu ,

Jiajia Wu ,

Jianchen Zhu ,

Jianfeng Yan ,

Jiaqi Zhu ,

Jihong Zhang ,

Jinbao Xue ,

Jun Xia ,

Junqiang Zheng ,

Kai Liu ,

Kai Zhang ,

Kai Zheng ,

Kejiao Li ,

Keyao Wang ,

Lan Jiang ,

Lixin Liu ,

Lulu Wu ,

Mengyuan Huang ,

Peijie Yu ,

Peiqi Wang ,

Qian Wang ,

Qianbiao Xiang ,

Qibin Liu ,

Qingfeng Sun ,

Richard Guo ,

Ruobing Xie ,

Saiyong Yang ,

Shaohua Chen ,

Shihui Hu ,

Shuai Li ,

Shuaipeng Li ,

Shuang Chen ,

Suncong Zheng ,

Tao Yang ,

Tian Zhang ,

Tinghao Yu ,

Weidong Han ,

Weijie Liu ,

Weijin Zhou ,

Weikang Wang ,

Wesleye Chen ,

Xiao Feng ,

Xiaoqin Ren ,

Xingwu Sun ,

Xiong Kuang ,

Xuemeng Huang ,

Xun Cao ,

Yanfeng Chen ,

Yang Du ,

Yang Zhen ,

Yangyu Tao ,

Yaping Deng ,

Yi Shen ,

Yigeng Hong ,

Yiqi Chen ,

Yiqing Huang ,

Yuchi Deng ,

Yue Mao ,

Yulong Wang ,

Yuyuan Zeng ,

Zenan Xu ,

Zhanhui Kang ,

Zhe Zhao ,

ZhenXiang Yan ,

Zheng Fang ,

Zhichao Hu ,

Zhongzhi Chen ,

Zhuoyu Li ,

Zongwei Li ,

Alex Yan ,

Ande Liang ,

Baitong Liu ,

Beiping Pan ,

Bin Xing ,

Binghong Wu ,

Bingxin Qu ,

Bolin Ni ,

Boyu Wu ,

Chen Li ,

Cheng Jiang ,

Cheng Zhang ,

Chengjun Liu ,

Chengxu Yang ,

Chengzhong Xu ,

Chiyu Wang ,

Chong Zha ,

Daisy Yi ,

Di Wang ,

Fanyang Lu ,

Fei Chen ,

Feifei Liu ,

Feng Zheng ,

Guanghua Yu ,

Guiyang Li ,

Guohua Wang ,

Haisheng Lin ,

Han Liu ,

Han Wang ,

Hao Fei ,

Hao Lu ,

Haoqing Jiang ,

Haoran Sun ,

Haotian Zhu ,

Huangjin Dai ,

Huankui Chen ,

Huawen Feng ,

Huihui Cai ,

Huxin Peng ,

Jackson Lv ,

Jiacheng Shi ,

Jiahao Bu ,

Jianbo Li ,

Jianglu Hu ,

Jiangtao Guan ,

Jianing Xu ,

Jianwei Cai ,

Jiarong Zhang ,

Jiawei Song ,

Jie Jiang ,

Jie Liu ,

Jieneng Yang ,

Jihong Zhang ,

Jin lv ,

Jing Zhao ,

Jinjian Li ,

Jinxing Liu ,

Jun Zhao ,

Juntao Guo ,

Kai Wang ,

Kan Wu ,

Lei Fu ,

Lei He ,

Lei Wang ,

Li Liu ,

Liang Dong ,

Liya Zhan ,

Long Cheng ,

Long Xu ,

Mao Zheng ,

Meng Liu ,

Mengkang Hu ,

Nanli Chen ,

Peirui Chen ,

Peng He ,

Pengju Pan ,

Pengzhi Wei ,

Qi Yang ,

Qi Yi ,

Roberts Wang ,

Rongpeng Chen ,

Rui Sun ,

Rui Yang ,

Ruibin Chen ,

Ruixu Zhou ,

Shaofeng Zhang ,

Sheng Zhang ,

Shihao Xu ,

Shuaishuai Chang ,

Shulin Liu ,

SiQi Wang ,

Songjia Feng ,

Songling Yuan ,

Tao Zhang ,

Tianjiao Lang ,

Tongkai Li ,

Wei Deng ,

Wei Li ,

Weichao Wang ,

Weigang Zhang ,

Weixuan Sun ,

Wen Ouyang ,

Wenxiang Jiao ,

Wenzhi Sun ,

Wenzhuo Jia ,

Xiang Zhang ,

Xiangyu He ,

Xianshun Ren ,

XiaoYing Zhu ,

Xiaolong Guo ,

Xiaoxue Li ,

Xiaoyu Ma ,

Xican Lu ,

Xinhua Feng ,

Xinting Huang ,

Xinyu Guan ,

Xirui Li ,

Xu Zhang ,

Xudong Gao ,

Xun Luo ,

Xuxiang Qi ,

Yangkun Chen ,

Yangyu Tao ,

Yanling Xiao ,

Yantao Mai ,

Yanze Chen ,

Yao Ding ,

Yeting Yang ,

YiFan Song ,

Yifan Yang ,

Yijiao Zhu ,

Yinhe Wu ,

Yixian Liu ,

Yong Yang ,

Yuanjun Cai ,

Yuanlin Tu ,

Yue Zhang ,

Yufei Huang ,

Yuhang Zhou ,

Yuhao Jiang ,

Yuhong Liu ,

Yuhui Hu ,

Yujin Lin ,

Yun Yang ,

Yunhao Wang ,

Yusong Zhang ,

Zekun Wu ,

Zelong Zhang ,

Zhan Yu ,

Zhaoliang Yang ,

Zhe Zhao ,

Zheng Li ,

Zhenyu Huang ,

Zhiguang Liu ,

Zhijiang Xu ,

Zhiqing Kui ,

Zhiyin Zeng ,

Zhiyuan Xiong ,

Zhuo Han ,

Zifan Wu ,

Zigang Geng ,

Zilong Zhao ,

Ziyan Tang ,

Ziyuan Zhu ,

Zonglei Zhu ,

Zhijiang Xu

2025年05月21日

简介

随着大语言模型（LLMs）的迅速发展，我们推出了 Hunyuan-TurboS，这是一款全新的大型混合 Transformer-Mamba 专家混合（MoE）模型。它将 Mamba 在长序列处理上的高效性与 Transformer 在上下文理解上的优越性能协同结合。Hunyuan-TurboS 引入了一种自适应的长短链式思维（CoT）机制，能够动态切换简单查询的快速响应模式和复杂问题的深度“思考”模式，从而优化计算资源的使用。在架构上，这款激活参数为 560 亿（总参数量 5600 亿）的模型采用了 128 层结构（包括 Mamba2、注意力机制和前馈网络 FFN），并创新性地使用了 AMF/MF 块模式。更快的 Mamba2 确保了线性复杂度，分组查询注意力（Grouped-Query Attention）最小化了 KV 缓存，而 FFNs 则采用了 MoE 结构。该模型基于 16 万亿高质量 token 进行预训练，支持 256K 的上下文长度，并成为首个在工业界部署的大规模 Mamba 模型。通过全面的后训练策略，我们进一步提升了其能力，具体包括监督微调（300 万条指令）、一种新颖的长短链式思维融合方法、多轮审议学习以实现迭代改进，以及针对 STEM 和通用指令跟随的两阶段大规模强化学习过程。评估结果显示，该模型表现出色：在 LMSYS 聊天机器人竞技场中总体排名第七，得分为 1356，超越了 Gemini-2.0-Flash-001（1352 分）和 o4-mini-2025-04-16（1345 分）等领先模型。TurboS 在 23 个自动化基准测试中的平均表现达到了 77.9%。Hunyuan-TurboS 在高性能和高效率之间取得了平衡，在推理成本低于许多推理模型的情况下提供了强大的能力，为高效的超大规模预训练模型树立了新的标杆。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决如何在大规模语言模型中平衡性能与效率的问题，特别是在处理长序列和复杂推理任务时。这是一个持续优化的问题，但通过结合Mamba架构和Transformer的特性，提出了新的解决方案。
关键思路

论文的关键思路是设计一个混合架构——Hunyuan-TurboS，它结合了Mamba的高效长序列处理能力和Transformer的强大上下文理解能力。此外，还引入了动态调整的长-短链式思维机制（CoT），以适应不同复杂度的任务需求。相比现有研究，这种混合架构以及自适应计算资源分配机制是一个创新点。
其它亮点

论文值得关注的地方包括：1) 支持256K上下文长度，远超现有模型；2) 使用16万亿高质量token进行预训练，提升了模型泛化能力；3) 提出了多阶段后训练策略，包括监督微调、迭代改进学习和强化学习；4) 在LMSYS Chatbot Arena上表现优异，排名前7，并在23个自动化基准测试中平均得分77.9%；5) 模型参数规模达到560B，激活参数为56B，显示了高效性。目前未提及代码是否开源，但其架构设计值得进一步研究。
相关研究

最近的相关研究包括Google的Gemini系列模型、阿里云的通义千问（Qwen）系列以及Meta的Llama系列。这些模型也在探索高效的大规模架构和长序列处理能力。例如，《Scaling Laws for Autoregressive and Bidirectional Transformer Language Models》探讨了模型扩展规律，《Mamba: Efficient Transformers for Long-Range Dependency Modeling》专注于长序列建模，《Gemini: A Collection of Large Language Models》介绍了多模态和高性能推理技术。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问