- 简介我们推出了SWE-Gym,这是第一个用于训练现实世界软件工程(SWE)代理的环境。SWE-Gym包含2,438个真实的Python任务实例,每个实例包括一个带有可执行运行时环境的代码库、单元测试以及用自然语言描述的任务。我们使用SWE-Gym来训练基于语言模型的SWE代理,在流行的SWE-Bench Verified和Lite测试集上,解决率绝对提升了高达19%。我们还通过在SWE-Gym中采样的代理轨迹上训练验证器,进行了推理时间扩展的实验。当与我们微调的SWE代理结合时,我们在SWE-Bench Verified和Lite上分别达到了32.0%和26.0%,这反映了开放权重SWE代理的新最先进水平。为了促进进一步的研究,我们公开发布了SWE-Gym、模型和代理轨迹。
- 图表
- 解决问题该论文试图解决如何训练能够处理真实世界软件工程任务的人工智能代理的问题。这是一个相对较新的问题,特别是在将自然语言指令与实际代码修改相结合的背景下。
- 关键思路关键思路是创建一个名为SWE-Gym的环境,其中包含2,438个真实的Python任务实例,每个实例都包括一个可执行的运行时环境、单元测试和自然语言描述的任务。通过这个环境,研究者可以训练基于语言模型的软件工程代理,并且通过推理时的验证器来提高这些代理的表现。相比现有研究,这种方法不仅提供了大规模的真实世界数据集,还引入了通过代理轨迹训练验证器以优化性能的新方法。
- 其它亮点论文的重要亮点包括:1) SWE-Gym的构建,为研究提供了宝贵的资源;2) 在SWE-Bench Verified和Lite测试集上实现了显著的性能提升;3) 结合推理时扩展的方法,进一步提高了代理的性能,达到了新的最先进水平;4) 所有资源(包括SWE-Gym、模型和代理轨迹)均公开发布,促进了后续研究。
- 最近在这个领域中,相关研究包括《CodeXGLUE: A Benchmark for Evaluating Generalization of Code Intelligence Models》和《Program Synthesis with Large Language Models》等。这些研究主要集中在代码生成和理解方面,而本研究则更侧重于通过复杂的任务环境来训练和评估软件工程代理的实际应用能力。
沙发等你来抢
去评论
评论
沙发等你来抢