- 简介语言模型(LM)代理程序越来越多地被用于自动化数字环境中的复杂任务。就像人类受益于强大的软件应用程序(例如集成开发环境)一样,在软件工程等复杂任务中,我们认为LM代理代表了一类具有自己需求和能力的终端用户,并且会受益于专门构建的软件接口。我们研究了接口设计如何影响语言模型代理的性能。作为这项探索的结果,我们介绍了SWE-agent:一个系统,可以帮助LM代理自主使用计算机来解决软件工程任务。SWE-agent的自定义代理-计算机接口(ACI)显著增强了代理程序创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。我们在SWE-bench和HumanEvalFix上评估了SWE-agent,在两者上都达到了最先进的性能,分别为12.5%和87.7%的一次通过率,远远超过以前使用非交互式LM实现的最先进水平。最后,我们提供了有关ACI设计如何影响代理程序行为和性能的见解。
-
- 图表
- 解决问题研究LM代理的界面设计如何影响其性能,提出了SWE-agent系统来帮助LM代理自主地使用计算机解决软件工程任务。
- 关键思路SWE-agent系统提供了自定义代理-计算机界面(ACI),显著提高了代理创建和编辑代码文件、浏览整个代码库以及执行测试和其他程序的能力。
- 其它亮点SWE-agent系统在SWE-bench和HumanEvalFix上进行了评估,取得了12.5%和87.7%的一次通过率,分别超过了以前使用非交互式LM代理的最新技术水平。论文还提供了关于ACI设计如何影响代理行为和性能的见解。
- 最近的相关研究包括使用LM代理进行自然语言处理和对话生成的工作,如《GPT-3》和《DialoGPT》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流