QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

2025年12月15日
  • 简介
    我们推出QwenLong-L1.5,这是一款通过系统性后训练创新实现卓越长上下文推理能力的模型。QwenLong-L1.5的关键技术突破如下:(1)长上下文数据合成管线:我们构建了一套系统的合成框架,能够生成需要在全局分布的证据上进行多跳推理的高难度任务。该方法将文档分解为原子事实及其内在关系,再通过程序化方式构造可验证的推理问题,从而大规模生成高质量训练数据,显著超越简单的检索类任务,真正实现远距离推理能力。(2)面向长上下文训练的稳定强化学习:为解决长上下文强化学习中存在的严重不稳定性问题,我们引入任务均衡采样与任务特定的优势估计,以缓解奖励偏差,并提出自适应熵控制策略优化(AEPO)方法,动态调节探索与利用之间的权衡。(3)面向超长上下文的增强型记忆架构:鉴于即使扩展上下文窗口也无法容纳任意长度的序列,我们设计了一种记忆管理框架,结合多阶段融合的强化学习训练,将单次推理与基于记忆的迭代处理无缝整合,从而有效应对超过400万token的任务。基于Qwen3-30B-A3B-Thinking模型,QwenLong-L1.5在长上下文推理基准测试中的表现与GPT-5和Gemini-2.5-Pro相当,平均成绩较其基线模型提升9.90分。在超长文本任务(100万至400万token)中,QwenLong-L1.5的记忆代理框架相较代理基线提升了9.48分。此外,所获得的长上下文推理能力还能迁移到科学推理、记忆工具使用以及长程对话等通用领域,带来性能的全面提升。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大模型在超长上下文推理中的性能瓶颈问题,尤其是在需要跨多个分散证据进行多跳推理的复杂任务中。现有方法大多局限于简单检索或短上下文处理,难以支持百万级甚至千万级token的连贯推理。该问题随着对长文本建模需求的增长(如法律文档、科学论文分析和长期对话记忆)变得日益重要,虽然已有部分研究探索长上下文建模,但实现真正具备系统性长程推理能力的模型仍是一个较新的挑战。
  • 关键思路
    提出QwenLong-L1.5,通过三大技术创新提升长上下文推理能力:1)构建一个基于事实分解与关系重组的长上下文数据合成流水线,生成需全局证据支撑的多跳推理问题;2)设计稳定化的强化学习框架(AEPO),结合任务平衡采样与自适应熵控制,缓解长序列RL训练中的奖励偏差与不稳定性;3)引入记忆增强架构与多阶段融合RL训练,使模型能在单次推理与迭代式记忆读写之间动态切换,支持超过4M token的极端长度输入。相比当前主流仅扩展上下文窗口的方法,本工作更强调‘推理机制’的重构,而非单纯依赖注意力扩展。
  • 其它亮点
    实验设计覆盖主流长上下文基准(如ZeroSCROLL、LongBench、NarrativeQA等),并在自建的超长推理测试集(1M~4M tokens)上验证了记忆代理框架的有效性。结果显示QwenLong-L1.5平均超越基线9.90分,在超长任务上比普通agent架构高出9.48分,性能接近GPT-5与Gemini-2.5-Pro。此外,其长上下文能力可迁移到科学推理、工具调用与长程对话等通用场景。目前尚未公开代码,但提及基于Qwen3-30B-A3B-Thinking开源底座进行后训练优化,未来在记忆架构与轻量化部署方向有进一步探索空间。
  • 相关研究
    1. LongNet: Scaling Transformers to 1,000,000,000 Tokens 2. Efficient Memory-Based Long Sequence Modeling with Attention Restriction 3. Memorizing Transformers for Language Modeling 4. REPLUG: Retrieval-Augmented Black-Box Language Models 5. Chain-of-Document Reasoning via Iterative Retrieval and Reading
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问