Measuring Agents in Production - 智源社区论文

向作者提问

NEW

简介

基于大语言模型（LLM）的智能体目前已在众多行业中投入实际生产应用，但我们尚不清楚究竟哪些技术方法真正支撑了这些部署的成功落地。本文首次系统性地开展了“生产环境中的智能体评估”（Measuring Agents in Production, MAP）研究，所用数据全部源自一线智能体开发者的亲身实践。我们通过深度访谈完成了20个典型案例研究，并面向涵盖26个不同领域的306名从业者开展了问卷调查。本研究重点探究了组织构建智能体的动因、具体构建方式、评估方法以及开发过程中面临的主要挑战。研究发现，当前投入生产的智能体普遍采用简单、可控的技术路径：68%的智能体在触发人工介入前最多仅执行10步操作；70%主要依赖对现成模型进行提示工程（prompting），而非对模型权重进行微调（weight tuning）；74%的评估工作以人工评估为主。与此同时，“可靠性”——即智能体在长期运行中持续、稳定地输出正确结果的能力——仍是开发者面临的首要技术挑战，而当前业界主要通过系统层面的设计（systems-level design）来应对这一问题。MAP研究全面记录了智能体在真实生产环境中的现状，不仅为学术界提供了关于实际部署情况的一手洞察，也揭示出诸多尚未被充分探索的重要研究方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

缺乏对LLM-based agent在真实生产环境中成功部署的技术实践的系统性实证理解；现有研究多聚焦于算法创新或单点评估，而忽视了工业界实际采用的方法、评估范式与核心挑战。
关键思路

通过大规模一线开发者调研（20个深度案例访谈 + 306人跨26领域的问卷），首次以实证方式提炼出生产级agent的共性技术特征：极简流程（≤10步）、免微调提示工程主导、人类评估为金标准，并指出‘可靠性’（而非准确性或新颖性）是首要挑战，需靠系统级设计（如回退机制、人工接管路径）而非模型改进来解决。
其它亮点

研究设计严谨：混合方法（定性+定量），覆盖金融、医疗、客服等26个高价值垂直领域；发现反直觉事实——70%不微调模型、74%依赖人工评估，挑战主流学术假设；未依赖特定数据集或代码库（因研究对象为工程实践本身），但公开了调查工具与编码框架；值得深入的方向包括：可靠性量化指标构建、人机协同干预点自动建模、轻量可控agent架构设计。
相关研究

‘A Survey on Evaluation of Large Language Model Based Agents’ (ACL 2024); ‘The State of LLM Application Development’ (arXiv:2312.08963); ‘AgentBench: Evaluating LLM-based Multi-Agent Systems’ (NeurIPS 2023); ‘LLM in Production: A Field Study of Real-World LLM Applications’ (CHI 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问