SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

John Yang ,
Carlos E. Jimenez ,
Alexander Wettig ,
Kilian Lieret ,
Shunyu Yao ,
Karthik Narasimhan ,
Ofir Press
539
热度
2024年05月06日
  • 简介
    语言模型(LM)代理程序越来越多地被用于自动化数字环境中的复杂任务。就像人类受益于强大的软件应用程序(例如集成开发环境)一样,在软件工程等复杂任务中,我们认为LM代理代表了一类具有自己需求和能力的终端用户,并且会受益于专门构建的软件接口。我们研究了接口设计如何影响语言模型代理的性能。作为这项探索的结果,我们介绍了SWE-agent:一个系统,可以帮助LM代理自主使用计算机来解决软件工程任务。SWE-agent的自定义代理-计算机接口(ACI)显著增强了代理程序创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。我们在SWE-bench和HumanEvalFix上评估了SWE-agent,在两者上都达到了最先进的性能,分别为12.5%和87.7%的一次通过率,远远超过以前使用非交互式LM实现的最先进水平。最后,我们提供了有关ACI设计如何影响代理程序行为和性能的见解。
  • 图表
  • 解决问题
    研究LM代理的界面设计如何影响其性能,提出了SWE-agent系统来帮助LM代理自主地使用计算机解决软件工程任务。
  • 关键思路
    SWE-agent系统提供了自定义代理-计算机界面(ACI),显著提高了代理创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。
  • 其它亮点
    SWE-agent系统在SWE-bench和HumanEvalFix上进行了评估,取得了12.5%和87.7%的一次通过率,分别超过了以前使用非交互式LM代理的最新技术水平。论文还提供了关于ACI设计如何影响代理行为和性能的见解。
  • 相关研究
    最近的相关研究包括使用LM代理进行自然语言处理和对话生成的工作,如《GPT-3》和《DialoGPT》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论