RoadmapBench: Evaluating Long-Horizon Agentic Software Development Across Version Upgrades

向作者提问

NEW

简介

编码智能体正日益被部署于真实的软件开发场景中，而单个版本的迭代往往需要跨多个文件、持续数月的协同工作。然而，目前大多数现有基准测试主要聚焦于从 Python 代码仓库中提取的单一问题缺陷修复任务，且仅采用粗粒度的“通过/失败”式评估方式，因而无法真实反映在实际工程规模下所面临的长周期、多目标协同开发挑战。为弥补这一空白，我们提出了 RoadmapBench——一个基于真实开源项目版本升级构建的基准测试集，涵盖 17 个开源仓库、5 种编程语言，共包含 115 个长周期编码任务。每个任务均以某一源版本的完整代码快照为起点，并提供一份多目标路线图指令，要求智能体实现目标版本中引入的新功能；任务平均涉及 51 个文件、共计约 3700 行代码的修改（中位数）。我们对 13 个前沿大模型开展了系统性评测，结果表明：即使表现最强的模型 Claude-Opus-4.7 也仅能成功完成 39.1% 的任务，而表现最弱的模型完成率仅为 5.2%——这一结果与现有缺陷修复类基准测试中普遍较高的通过率形成鲜明对比，充分说明长周期软件开发仍是当前人工智能领域尚未解决的重大难题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有AI编码基准（如HumanEval、MBPP）主要聚焦于单文件、单问题的短期bug修复任务，无法评估模型在真实软件工程场景中执行长期、跨多文件、多目标版本升级任务的能力；论文旨在填补这一关键能力评估空白。
关键思路

提出RoadmapBench——首个基于真实开源项目版本演进构建的长周期、多目标、多语言编码基准，将任务建模为：给定源版本代码快照 + 目标版本功能升级路线图指令 → 生成符合目标版本行为的完整修改补丁（平均3700行/51文件），强调端到端工程一致性而非局部正确性。
其它亮点

包含115个真实版本升级任务，覆盖17个知名开源库（如pytest、black、fastapi）、5种语言（Python/JS/TS/Go/Rust）；采用细粒度、行为驱动的自动化验证（含测试套件执行、API兼容性检查、diff语义对齐）；系统评测13个前沿模型（Claude-Opus-4.7仅达39.1%任务完成率）；数据集已开源（https://github.com/roadmapbench/roadmapbench），含完整代码快照、roadmap指令、黄金补丁及验证脚本。
相关研究

CodeContests (2021), HumanEval (2021), MBPP (2022), CodeXGLUE (2021), SWE-bench (2023), RepoAgent (2024), DevEval (2024), OpenHands-Bench (2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问