QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

向作者提问

NEW

简介

我们推出QwenLong-L1.5，这是一款通过系统性后训练创新实现卓越长上下文推理能力的模型。QwenLong-L1.5的关键技术突破如下：（1）长上下文数据合成管线：我们构建了一套系统的合成框架，能够生成需要在全局分布的证据上进行多跳推理的高难度任务。该方法将文档分解为原子事实及其内在关系，再通过程序化方式构造可验证的推理问题，从而大规模生成高质量训练数据，显著超越简单的检索类任务，真正实现远距离推理能力。（2）面向长上下文训练的稳定强化学习：为解决长上下文强化学习中存在的严重不稳定性问题，我们引入任务均衡采样与任务特定的优势估计，以缓解奖励偏差，并提出自适应熵控制策略优化（AEPO）方法，动态调节探索与利用之间的权衡。（3）面向超长上下文的增强型记忆架构：鉴于即使扩展上下文窗口也无法容纳任意长度的序列，我们设计了一种记忆管理框架，结合多阶段融合的强化学习训练，将单次推理与基于记忆的迭代处理无缝整合，从而有效应对超过400万token的任务。基于Qwen3-30B-A3B-Thinking模型，QwenLong-L1.5在长上下文推理基准测试中的表现与GPT-5和Gemini-2.5-Pro相当，平均成绩较其基线模型提升9.90分。在超长文本任务（100万至400万token）中，QwenLong-L1.5的记忆代理框架相较代理基线提升了9.48分。此外，所获得的长上下文推理能力还能迁移到科学推理、记忆工具使用以及长程对话等通用领域，带来性能的全面提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大模型在超长上下文推理中的性能瓶颈问题，尤其是在需要跨多个分散证据进行多跳推理的复杂任务中。现有方法大多局限于简单检索或短上下文处理，难以支持百万级甚至千万级token的连贯推理。该问题随着对长文本建模需求的增长（如法律文档、科学论文分析和长期对话记忆）变得日益重要，虽然已有部分研究探索长上下文建模，但实现真正具备系统性长程推理能力的模型仍是一个较新的挑战。
关键思路

提出QwenLong-L1.5，通过三大技术创新提升长上下文推理能力：1）构建一个基于事实分解与关系重组的长上下文数据合成流水线，生成需全局证据支撑的多跳推理问题；2）设计稳定化的强化学习框架（AEPO），结合任务平衡采样与自适应熵控制，缓解长序列RL训练中的奖励偏差与不稳定性；3）引入记忆增强架构与多阶段融合RL训练，使模型能在单次推理与迭代式记忆读写之间动态切换，支持超过4M token的极端长度输入。相比当前主流仅扩展上下文窗口的方法，本工作更强调‘推理机制’的重构，而非单纯依赖注意力扩展。
其它亮点

实验设计覆盖主流长上下文基准（如ZeroSCROLL、LongBench、NarrativeQA等），并在自建的超长推理测试集（1M~4M tokens）上验证了记忆代理框架的有效性。结果显示QwenLong-L1.5平均超越基线9.90分，在超长任务上比普通agent架构高出9.48分，性能接近GPT-5与Gemini-2.5-Pro。此外，其长上下文能力可迁移到科学推理、工具调用与长程对话等通用场景。目前尚未公开代码，但提及基于Qwen3-30B-A3B-Thinking开源底座进行后训练优化，未来在记忆架构与轻量化部署方向有进一步探索空间。
相关研究

1. LongNet: Scaling Transformers to 1,000,000,000 Tokens 2. Efficient Memory-Based Long Sequence Modeling with Attention Restriction 3. Memorizing Transformers for Language Modeling 4. REPLUG: Retrieval-Augmented Black-Box Language Models 5. Chain-of-Document Reasoning via Iterative Retrieval and Reading

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问