OpenHands: An Open Platform for AI Software Developers as Generalist Agents

2024年07月23日
  • 简介
    软件是我们人类拥有的最强大的工具之一;它允许熟练的程序员以复杂和深刻的方式与世界互动。同时,由于大型语言模型(LLM)的改进,AI代理与其周围环境的交互和影响也得到了快速发展。在本文中,我们介绍了OpenHands(前身为OpenDevin),这是一个用于开发强大而灵活的AI代理的平台,它以与人类开发者类似的方式与世界互动:编写代码、与命令行交互和浏览网络。我们描述了该平台如何允许实现新代理、安全地与沙盒环境进行代码执行的交互、多个代理之间的协调以及评估基准的整合。基于我们目前整合的基准测试,我们对超过15个具有挑战性的任务进行了代理评估,包括软件工程(例如SWE-BENCH)和网络浏览(例如WEBARENA)等。OpenHands是一个社区项目,跨足学术界和工业界,拥有来自188个贡献者的超过2.1K次贡献,并使用宽松的MIT许可证发布。
  • 图表
  • 解决问题
    介绍OpenHands平台,旨在开发强大灵活的人工智能代理,与人类开发者类似地与世界交互,通过编写代码、与命令行交互和浏览Web等方式。
  • 关键思路
    OpenHands平台允许实现新的代理,安全地与沙盒环境交互进行代码执行,协调多个代理,并结合评估基准。该平台已经在15个具有挑战性的任务上进行了代理评估,包括软件工程和Web浏览等方面。
  • 其它亮点
    OpenHands是一个社区项目,跨越学术界和工业界,拥有超过188个贡献者的2.1K个贡献。实验使用了多个基准数据集,包括SWE-BENCH和WEBARENA等。OpenHands平台已经开源,使用MIT许可证。
  • 相关研究
    与该论文相关的研究包括人工智能代理的开发和评估,以及在软件工程和Web浏览等领域中使用人工智能的应用。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论