SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

简介

语言模型（LM）代理程序越来越多地被用于自动化数字环境中的复杂任务。就像人类受益于强大的软件应用程序（例如集成开发环境）一样，在软件工程等复杂任务中，我们认为LM代理代表了一类具有自己需求和能力的终端用户，并且会受益于专门构建的软件接口。我们研究了接口设计如何影响语言模型代理的性能。作为这项探索的结果，我们介绍了SWE-agent：一个系统，可以帮助LM代理自主使用计算机来解决软件工程任务。SWE-agent的自定义代理-计算机接口（ACI）显著增强了代理程序创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。我们在SWE-bench和HumanEvalFix上评估了SWE-agent，在两者上都达到了最先进的性能，分别为12.5%和87.7%的一次通过率，远远超过以前使用非交互式LM实现的最先进水平。最后，我们提供了有关ACI设计如何影响代理程序行为和性能的见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究LM代理的界面设计如何影响其性能，提出了SWE-agent系统来帮助LM代理自主地使用计算机解决软件工程任务。
关键思路

SWE-agent系统提供了自定义代理-计算机界面（ACI），显著提高了代理创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。
其它亮点

SWE-agent系统在SWE-bench和HumanEvalFix上进行了评估，取得了12.5%和87.7%的一次通过率，分别超过了以前使用非交互式LM代理的最新技术水平。论文还提供了关于ACI设计如何影响代理行为和性能的见解。
相关研究

最近的相关研究包括使用LM代理进行自然语言处理和对话生成的工作，如《GPT-3》和《DialoGPT》。

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

提问交流

提问交流