How Well Does Agent Development Reflect Real-World Work?

向作者提问

NEW

简介

人工智能代理正日益在与人类工作密切相关的基准测试任务上被开发和评估，但目前尚不清楚这些基准测试工作在多大程度上能代表整体劳动力市场。本研究系统考察了人工智能代理研发活动与现实世界中人类工作分布之间的关系，方法是将各类基准测试任务映射至具体的工作领域与所需技能。我们首先分析了43个基准测试集、共计72,342项任务，量化评估其与美国劳动力市场全部1,016种真实职业在就业人口分布和资本配置两方面的契合程度。结果揭示出当前人工智能代理的研发明显偏向编程类任务，而人类劳动投入与经济价值实际高度集中于其他诸多职业类别——二者之间存在显著错配。进一步地，在人工智能代理当前已涉足的工作领域内，我们通过衡量其自主性水平，刻画了其现阶段的实际可用性，从而为不同工作场景下的人机协作策略提供了切实可行的指导建议。基于上述发现，我们提出三条可量化的基准测试设计原则，以期更准确地覆盖社会意义重大且技术挑战性强的各类工作形态：即覆盖全面性（Coverage）、情境真实性（Realism）以及细粒度评估能力（Granular Evaluation）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决AI代理（AI agents）基准测试与真实世界劳动力市场严重脱节的问题——即当前主流基准（如编程、推理类任务）是否能代表人类实际从事的多样化、高价值工作（如 healthcare, education, customer service 等）。这不是全新问题，但首次系统性地以全美1016个职业、就业人数与资本投入为标尺，量化评估基准的代表性偏差。
关键思路

提出‘劳动对齐’（labor alignment）分析框架：将72,342个基准任务映射到O*NET职业分类体系，跨维度衡量基准在就业规模、工资总额、GDP贡献等经济指标上的覆盖偏差；并引入‘自主性等级’（autonomy level）作为新维度刻画代理在不同工作场景中的实用边界。相比现有工作聚焦性能分数或能力维度（如MMLU、HELM），该思路首次将AI评估锚定于社会经济结构本身。
其它亮点

分析覆盖43个主流基准（含GAIA, SWE-bench, AgentBench, WebShop等），使用美国劳工统计局（BLS）和BEA官方数据；发现编程类任务占基准总量58%，但仅占全美就业的1.3%和GDP劳动收入的2.1%；医疗、教育、社工等高就业/高价值领域在基准中严重不足；未开源完整映射代码，但发布可复现的benchmark-to-occupation mapping schema；值得深入的方向包括：构建劳动对齐的合成工作流基准、设计面向低自主性场景（如human-in-the-loop）的评估协议、建立职业技能粒度（而非职业粗粒度）的评估标准。
相关研究

‘Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models’ (Liang et al., 2022); ‘The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning’ (Binns, 2018); ‘Occupational AI Exposure’ (Felten et al., 2023, NBER); ‘AgentBench: Evaluating LLM-based Agents on Realistic Tasks’ (Wang et al., 2024); ‘Labor Market–Informed Evaluation of AI Systems’ (Raji et al., 2023, FAccT workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问