SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation

2025年07月12日
  • 简介
    高质量的标注数据集对于训练和评估软件工程领域的基础模型至关重要,但创建这样的数据集往往成本高昂且耗时费力。我们提出了 SPICE,这是一种可扩展、自动化的标注流水线,专门用于对 SWE-bench 风格的数据集进行标注,涵盖问题清晰度、测试覆盖率和工作量估算等方面的注释。SPICE 结合了上下文感知的代码导航、基于推理的提示机制以及多轮共识策略,从而生成接近专家标注质量的标签。SPICE 的设计灵感来源于我们自身在对 SWE-Gym 中超过 800 个实例进行标注时的经历与困扰。SPICE 在与人工标注的 SWE-bench Verified 数据达成高度一致的同时,将标注 1000 个实例的成本从大约 10 万美元(人工标注)大幅降低至仅需 5.10 美元。这些结果表明,SPICE 有潜力推动面向软件工程的基础模型实现成本低廉、规模可观的数据集构建。为了支持社区发展,我们公开了 SPICE 工具以及 SPICE Bench——一个由 SPICE 标注的新数据集,包含从 SWE-Gym 中 291 个开源项目中精选出的 6802 个实例(规模超过 SWE-bench Verified 的 13 倍)。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决软件工程领域中高质量标注数据集创建成本高昂、人工标注效率低的问题。这是一个重要的老问题,但随着基础模型(Foundation Models)在软件工程(SE)中的广泛应用,其对大规模、高质量标注数据的需求使得这一问题尤为突出。
  • 关键思路
    论文提出了一种名为SPICE的自动化、可扩展的标注流水线,用于生成SWE-bench风格数据集的高质量标注。其核心思想是结合上下文感知的代码导航、基于推理的提示策略(rationale-driven prompting)和多轮共识机制(multi-pass consensus),以接近专家标注的质量进行自动标注。
  • 其它亮点
    1. SPICE基于超过800个SWE-Gym实例的标注经验进行设计,解决了人工标注昂贵且耗时的问题。 2. 实验显示SPICE标注结果与SWE-bench Verified中人工标注数据具有高度一致性,标注1000个实例的成本从10万美元降至5.10美元。 3. 发布SPICE工具和SPICE Bench数据集(包含6802个标注实例),比SWE-bench Verified大13倍。 4. 该方法为后续构建大规模SE专用基础模型提供了高效、低成本的数据生成路径。
  • 相关研究
    1. SWE-bench: Can Language Models Solve Software Engineering Tasks? (2023) 2. CodeT: Code Translation with Pretrained Models (2022) 3. CodeXGLUE: Code Extension, Translation, and Understanding Benchmark (2021) 4. Program Synthesis with Large Language Models (2022) 5. HumanEval: Evaluating Code Generation Capabilities of Large Language Models (2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问