Measuring Agents in Production

2025年12月02日
  • 简介
    基于大语言模型(LLM)的智能体目前已在众多行业中投入实际生产应用,但我们尚不清楚究竟哪些技术方法真正支撑了这些部署的成功落地。本文首次系统性地开展了“生产环境中的智能体评估”(Measuring Agents in Production, MAP)研究,所用数据全部源自一线智能体开发者的亲身实践。我们通过深度访谈完成了20个典型案例研究,并面向涵盖26个不同领域的306名从业者开展了问卷调查。本研究重点探究了组织构建智能体的动因、具体构建方式、评估方法以及开发过程中面临的主要挑战。研究发现,当前投入生产的智能体普遍采用简单、可控的技术路径:68%的智能体在触发人工介入前最多仅执行10步操作;70%主要依赖对现成模型进行提示工程(prompting),而非对模型权重进行微调(weight tuning);74%的评估工作以人工评估为主。与此同时,“可靠性”——即智能体在长期运行中持续、稳定地输出正确结果的能力——仍是开发者面临的首要技术挑战,而当前业界主要通过系统层面的设计(systems-level design)来应对这一问题。MAP研究全面记录了智能体在真实生产环境中的现状,不仅为学术界提供了关于实际部署情况的一手洞察,也揭示出诸多尚未被充分探索的重要研究方向。
  • 作者讲解
  • 图表
  • 解决问题
    缺乏对LLM-based agent在真实生产环境中成功部署的技术实践的系统性实证理解;现有研究多聚焦于算法创新或单点评估,而忽视了工业界实际采用的方法、评估范式与核心挑战。
  • 关键思路
    通过大规模一线开发者调研(20个深度案例访谈 + 306人跨26领域的问卷),首次以实证方式提炼出生产级agent的共性技术特征:极简流程(≤10步)、免微调提示工程主导、人类评估为金标准,并指出‘可靠性’(而非准确性或新颖性)是首要挑战,需靠系统级设计(如回退机制、人工接管路径)而非模型改进来解决。
  • 其它亮点
    研究设计严谨:混合方法(定性+定量),覆盖金融、医疗、客服等26个高价值垂直领域;发现反直觉事实——70%不微调模型、74%依赖人工评估,挑战主流学术假设;未依赖特定数据集或代码库(因研究对象为工程实践本身),但公开了调查工具与编码框架;值得深入的方向包括:可靠性量化指标构建、人机协同干预点自动建模、轻量可控agent架构设计。
  • 相关研究
    ‘A Survey on Evaluation of Large Language Model Based Agents’ (ACL 2024); ‘The State of LLM Application Development’ (arXiv:2312.08963); ‘AgentBench: Evaluating LLM-based Multi-Agent Systems’ (NeurIPS 2023); ‘LLM in Production: A Field Study of Real-World LLM Applications’ (CHI 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问