- 简介软件是我们人类拥有的最强大的工具之一;它允许熟练的程序员以复杂和深刻的方式与世界互动。同时,由于大型语言模型(LLMs)的改进,AI代理与周围环境的互动和影响也得到了快速发展。在本文中,我们介绍了OpenDevin,这是一个用于开发强大而灵活的AI代理的平台,这些代理与人类开发人员以类似的方式与世界互动:通过编写代码、与命令行交互和浏览网络。我们描述了该平台如何允许实现新的代理、安全地与沙盒环境进行代码执行的交互、多个代理之间的协调以及评估基准的整合。基于我们目前整合的基准,我们对15个具有挑战性的任务进行了代理的评估,包括软件工程(例如SWE-Bench)和浏览网络(例如WebArena),等等。OpenDevin采用宽松的MIT许可证发布,是一个跨学术界和工业界的社区项目,拥有来自160多个贡献者的1.3K个贡献,并将不断改进。
- 图表
- 解决问题介绍OpenDevin平台,旨在开发强大灵活的AI代理程序,与人类开发者类似地与世界互动。论文试图解决如何构建这样的平台,以及如何评估代理程序的性能。
- 关键思路OpenDevin平台允许开发人员实现新的代理程序,安全地与沙盒环境交互,协调多个代理程序,以及整合评估基准。论文的创新点在于将人类开发者的交互方式应用到AI代理程序中。
- 其它亮点论文描述了OpenDevin平台的设计和实现,以及15个具有挑战性的任务的代理程序性能评估。平台已在学术界和工业界得到广泛贡献和使用。论文还提供了开源代码和数据集。
- 与OpenDevin平台相关的研究包括对大型语言模型的改进,以及其他AI代理程序的开发和评估。例如,GPT-3、OpenAI Gym、DeepMind Control Suite等。
沙发等你来抢
去评论
评论
沙发等你来抢