NEW

Composer 2 Technical Report

Cursor Research ,

: ,

Aaron Chan ,

Ahmed Shalaby ,

Alexander Wettig ,

Aman Sanger ,

Andrew Zhai ,

Anurag Ajay ,

Ashvin Nair ,

Charlie Snell ,

Chen Lu ,

Chen Shen ,

Emily Jia ,

Federico Cassano ,

Hanpeng Liu ,

Haoyu Chen ,

Henry Wildermuth ,

Jacob Jackson ,

Janet Li ,

Jediah Katz ,

Jiajun Yao ,

Joey Hejna ,

Josh Warner ,

Julius Vering ,

Kevin Frans ,

Lee Danilek ,

Less Wright ,

Lujing Cen ,

Luke Melas-Kyriazi ,

Michael Truell ,

Michiel de Jong ,

Naman Jain ,

Nate Schmidt ,

Nathan Wang ,

Niklas Muennighoff ,

Oleg Rybkin ,

Paul Loh ,

Phillip Kravtsov ,

Rishabh Yadav ,

Sahil Shah ,

Sam Kottler ,

Alexander M Rush ,

Shengtong Zhang ,

Shomil Jain ,

Sriram Sankar ,

Stefan Heule ,

Stuart H. Sul ,

Sualeh Asif ,

Victor Rong ,

Wanqi Zhu ,

William Lin ,

Yuchen Wu ,

Yuri Volkov ,

Yury Zemlyanskiy ,

Zack Holbrook ,

Zhiyuan Zhang

热度 374

2026年03月25日

简介

Composer 2 是一款专为“具身式”（agentic）软件工程任务设计的专业化模型。该模型展现出卓越的长期规划能力与编程智能，同时仍能高效应对交互式场景下的各类问题求解需求。其训练分为两个阶段：第一阶段为持续预训练（continued pretraining），旨在增强模型的知识储备与潜在编程能力；第二阶段则采用大规模强化学习（reinforcement learning），通过提升推理能力、确保多步骤执行的准确性，以及增强在长周期、贴近真实场景的编程任务中的逻辑连贯性，从而优化端到端的代码生成性能。我们构建了一套专用训练基础设施，使其完全复现已部署模型所使用的 Cursor 开发环境——包括相同的工具链与系统架构，并采用高度贴合实际开发场景的运行环境。为系统性地评估模型在日益复杂任务上的表现，我们基于大型代码库（包括我们自身项目）中的真实软件工程问题，构建了一套全新的评测基准。Composer 2 属于当前最前沿的编程模型之一，其研发过程也为训练高性能领域专用模型提供了可复用的方法论范式。在我们自建的 CursorBench 评测中，该模型相较前代 Composer 系列模型实现了显著的准确率跃升（达 61.3 分）。在公开基准测试中，该模型在 Terminal-Bench 上得分为 61.7，在 SWE-bench Multilingual 上得分为 73.7（均在我们的统一评测环境中运行），整体性能与当前业界最优系统（state-of-the-art systems）相当。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何构建面向真实软件工程场景的、具备强长期规划能力与端到端执行一致性的专用代码大模型；该问题聚焦于弥补通用代码模型在复杂、多步骤、工具增强型（如终端、编辑器、调试器）交互式开发任务中的推理断裂、执行漂移与长程 coherence 缺失，是一个结合代理智能（agentic AI）、软件工程实践与模型训练基础设施的新颖系统性问题。
关键思路

提出‘双阶段领域强化训练范式’：先通过大规模持续预训练深化隐式编码知识与结构化代码理解，再在真实 Cursor 开发环境（含等效工具链与API）中开展大规模强化学习，直接优化端到端任务成功率；关键创新在于将部署环境（Cursor harness）完全前移至训练闭环，实现‘训练即部署、部署即训练’的一致性基础设施，使策略学习直接受益于真实工具反馈与长周期任务奖励。
其它亮点

1) 首个在真实IDE级交互环境中完成全栈RL训练的代码模型；2) 构建 CursorBench —— 基于大型私有代码库（含Cursor自身代码）提炼的现实工程难题基准，覆盖重构、依赖修复、跨文件调试等长程任务；3) 实验严格复现生产环境：使用相同工具（vscode/Cursor插件、shell、git、lsp）、相同权限模型与超参调度；4) 所有训练基础设施与评估 harness 已集成进开源 Cursor 生态（部分组件已公开），但完整训练数据与模型权重暂未开源；5) 值得深入的方向包括：可解释性RL策略追踪、多智能体协作编程建模、以及面向CI/CD流水线的自动化验证强化。
相关研究

1) 'AlphaCode 2: Towards Competitive Programming with Large Language Models' (DeepMind, 2024); 2) 'SWE-agent: An Agent for Software Engineering Benchmarks' (Princeton & Meta, 2023); 3) 'CodeAct: An Interactive Agent Framework for Code Generation' (UC Berkeley, 2024); 4) 'OctoPack: Instruction Tuning Code LLMs with GitHub Data' (Hugging Face & UCSD, 2023); 5) 'AgentCoder: Agentic Code Generation via Reinforcement Learning in Real IDE Environments' (Microsoft Research, 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问