- 简介软件是我们人类拥有的最强大的工具之一;它允许熟练的程序员以复杂和深刻的方式与世界互动。同时,由于大型语言模型(LLM)的改进,AI代理与其周围环境的交互和影响也得到了快速发展。在本文中,我们介绍了OpenHands(前身为OpenDevin),这是一个用于开发强大而灵活的AI代理的平台,它以与人类开发者类似的方式与世界互动:编写代码、与命令行交互和浏览网络。我们描述了该平台如何允许实现新代理、安全地与沙盒环境进行代码执行的交互、多个代理之间的协调以及评估基准的整合。基于我们目前整合的基准测试,我们对超过15个具有挑战性的任务进行了代理评估,包括软件工程(例如SWE-BENCH)和网络浏览(例如WEBARENA)等。OpenHands是一个社区项目,跨足学术界和工业界,拥有来自188个贡献者的超过2.1K次贡献,并使用宽松的MIT许可证发布。
- 图表
- 解决问题介绍OpenHands平台,旨在开发强大灵活的人工智能代理,与人类开发者类似地与世界交互,通过编写代码、与命令行交互和浏览Web等方式。
- 关键思路OpenHands平台允许实现新的代理,安全地与沙盒环境交互进行代码执行,协调多个代理,并结合评估基准。该平台已经在15个具有挑战性的任务上进行了代理评估,包括软件工程和Web浏览等方面。
- 其它亮点OpenHands是一个社区项目,跨越学术界和工业界,拥有超过188个贡献者的2.1K个贡献。实验使用了多个基准数据集,包括SWE-BENCH和WEBARENA等。OpenHands平台已经开源,使用MIT许可证。
- 与该论文相关的研究包括人工智能代理的开发和评估,以及在软件工程和Web浏览等领域中使用人工智能的应用。
沙发等你来抢
去评论
评论
沙发等你来抢