- 简介我们每天都在与计算机互动,无论是日常生活还是工作中,许多工作内容都可以完全通过访问计算机和互联网来完成。同时,得益于大型语言模型(LLMs)的进步,能够与周围环境互动并对其产生影响的人工智能代理也得到了快速发展。但是,人工智能代理在加速甚至自主执行工作任务方面的表现如何呢?这个问题的答案对希望将人工智能融入工作流程的行业以及需要了解人工智能采用对劳动力市场可能产生的影响的经济政策都具有重要意义。为了衡量这些大型语言模型代理在执行现实世界专业任务方面的表现进展,本文介绍了TheAgentCompany,这是一个可扩展的基准测试工具,用于评估以类似于数字工作者的方式与世界互动的人工智能代理:通过浏览网络、编写代码、运行程序和与其他同事沟通。我们构建了一个包含内部网站和数据的自包含环境,模拟了一个小型软件公司的环境,并创建了该类公司员工可能执行的各种任务。我们测试了由封闭API和开放权重语言模型(LMs)驱动的基础代理,并发现使用最具有竞争力的代理,可以自主完成24%的任务。这描绘了一幅关于使用语言模型代理进行任务自动化的复杂图景——在模拟真实工作场所的环境中,相当一部分简单任务可以自主解决,但更复杂的长期任务仍然超出了当前系统的范围。
- 图表
- 解决问题该论文试图评估大型语言模型(LLM)在模拟真实工作环境中的表现,特别是在执行专业任务方面的能力。这是一个重要的问题,因为它关系到AI技术在行业中的应用潜力及其对劳动力市场的影响。
- 关键思路论文通过构建一个名为TheAgentCompany的基准测试环境,模拟了一个小型软件公司的内部网络和数据结构,以评估AI代理在完成各种工作任务时的表现。这一方法不仅测试了AI代理的基本功能,如浏览网页、编写代码和与同事沟通,还考察了它们处理复杂任务的能力。这种方法为评估AI在实际工作环境中的表现提供了一种新的视角。
- 其它亮点1. 论文创建了一个自包含的环境,包括内部网站和数据,以模拟真实的软件公司环境。 2. 设计了多种任务,涵盖了软件开发过程中的常见活动,如项目管理、代码审查和客户沟通。 3. 使用了多种基线模型,包括闭源API和开源权重的语言模型,以全面评估不同模型的性能。 4. 实验结果显示,当前最先进的AI代理能够自主完成约24%的任务,表明AI在处理简单任务方面已具备一定能力,但在处理复杂任务时仍面临挑战。 5. 论文提供了开源代码和数据集,便于其他研究者复现和扩展研究。
- 1. "Evaluating Large Language Models Trained on Code" - 该研究评估了大型语言模型在编程任务上的表现。 2. "Human-Level Performance in No-Limit Poker with DeepStack" - 虽然聚焦于游戏领域,但展示了AI在复杂决策任务中的能力。 3. "Emergent Tool Use From Multi-Agent Autocurricula" - 探讨了多智能体系统如何自发地学习使用工具。 4. "Benchmarking Generalization via In-Context Learning in T0" - 提出了一个用于评估模型泛化能力的新基准。 5. "The AI Index Report 2022" - 汇总了AI领域的最新进展,包括技术性能和经济影响。
沙发等你来抢
去评论
评论
沙发等你来抢