Measuring Agents in Production - 智源社区论文

向作者提问

NEW

简介

人工智能代理目前已在众多行业中投入实际运行，但关于哪些技术方法能够实现成功的现实应用部署，公众所知甚少。本文首次对生产环境中的AI代理进行了大规模系统性研究，通过调查306名从业者，并在26个领域中开展20项深入的案例访谈。我们探讨了组织为何构建代理、如何构建、如何评估以及开发过程中面临的主要挑战。研究发现，生产环境中的代理通常采用简单且可控的方法构建：68%的代理在需要人工干预前最多执行10个步骤，70%依赖对现成模型进行提示（prompting）而非调整模型权重，74%主要依靠人工进行评估。可靠性仍是开发中最突出的挑战，其根源在于确保和评估代理行为正确性的困难。尽管存在这些挑战，简单而有效的方法已足以使代理在不同行业中产生实际影响。本研究记录了当前的实践现状，通过向研究人员揭示生产中的实际难题，同时为从业者提供来自成功部署的可复用模式，从而弥合了学术研究与实际应用之间的鸿沟。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决的问题是：尽管AI智能体已在多个行业中投入生产使用，但学术界和公众对实际部署中哪些技术方法真正有效知之甚少。当前研究与实际应用之间存在巨大鸿沟，缺乏系统性了解生产环境中AI代理的构建、评估和挑战情况。这是一个相对较新的问题，因为此前尚无大规模实证研究揭示AI代理在真实世界中的实践现状。
关键思路

通过大规模问卷调查（306名从业者）和深入的案例访谈（20个案例，覆盖26个领域），系统性地揭示AI代理在生产环境中的实际做法。关键发现是：成功的生产级AI代理通常采用简单、可控的方法——如限制执行步数、依赖现成模型的提示工程而非微调权重、主要依靠人工评估——而不是复杂或前沿的技术。这一思路挑战了研究社区对‘更智能=更复杂’的普遍假设，强调可靠性与可控性在现实部署中的优先地位。
其它亮点

研究设计严谨，结合定量（306份调查）与定性（20个深度访谈）方法，覆盖广泛行业领域。数据来源于一线实践者，具有高度真实性。实验未使用传统机器学习数据集，而是以实践经验为‘数据’，填补了研究空白。代码虽未提及开源，但其方法论可复用于后续研究。值得关注的亮点包括：68%的代理在10步内需人工介入，70%使用提示而非微调，74%依赖人工评估；可靠性被列为最大挑战。未来可深入研究如何在保持简单性的同时提升自动化水平，以及开发更有效的自动化评估机制。
相关研究

1. ‘Language Models are Few-Shot Learners’ (Brown et al., 2020) — 奠定了大模型提示使用的基础 2. ‘ReAct: Synergizing Reasoning and Acting in Language Models’ (Yao et al., 2023) — 推动AI代理推理与行动结合的研究 3. ‘AutoGPT: An Autonomous Agent Framework’ (Huang & Nie, 2023) — 开源项目引发对自主代理的关注 4. ‘The Rise and Fall of Chatbots: Lessons from Industry Deployments’ (Amershi et al., 2019) — 早期关于对话系统部署挑战的研究 5. ‘Towards Autonomous Agents: A Survey’ (Qin et al., 2023) — 综述类工作，但偏重学术视角而非实证

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问