How Well Does Agent Development Reflect Real-World Work?

向作者提问

NEW

简介

人工智能代理正日益在与人类工作密切相关的基准测试任务上被开发和评估，但目前尚不清楚这些基准测试工作在多大程度上能代表整体劳动力市场。本研究系统考察了人工智能代理研发活动与现实世界中人类工作分布之间的关系，方法是将各类基准测试任务映射至具体的工作领域与所需技能。我们首先分析了43个基准测试集、共计72,342项任务，量化评估其与美国劳动力市场全部1,016种真实职业在就业人口分布和资本配置两方面的契合程度。结果揭示出当前人工智能代理的研发明显偏向编程类任务，而人类劳动投入与经济价值实际高度集中于其他诸多职业类别——二者之间存在显著错配。进一步地，在人工智能代理当前已涉足的工作领域内，我们通过衡量其自主性水平，刻画了其现阶段的实际可用性，从而为不同工作场景下的人机协作策略提供了切实可行的指导建议。基于上述发现，我们提出三条可量化的基准测试设计原则，以期更准确地覆盖社会意义重大且技术挑战性强的各类工作任务：即“覆盖全面性”（Coverage）、“现实贴合度”（Realism）与“细粒度评估”（Granular Evaluation）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

AI代理的基准测试与真实人类劳动市场之间存在显著脱节：当前主流基准（如编程、推理类）过度集中于少数高技能、高收入职业（如软件开发），而严重低估了医疗保健、教育、客户服务等占就业人口和经济价值主体的广泛职业领域；论文旨在系统量化这一错配，并验证‘AI代理开发未充分反映社会实际工作分布’这一假设。
关键思路

首次将72,342个AI基准任务系统映射到美国劳工统计局（BLS）全部1,016个标准化职业（SOC），并关联就业人数、薪资中位数、资本投入等宏观经济指标；提出三维基准设计原则（Coverage/Realism/Granular Evaluation）以弥合技术开发与社会需求鸿沟，强调‘以劳动价值而非算法难度’为基准设计锚点。
其它亮点

分析覆盖43个主流基准（含HumanEval、GAIA、WebShop、ToolQA等），首次公开跨职业-任务对齐数据集（已开源）；引入‘任务自治度’（Task Autonomy Level）作为实用化评估维度，区分L0（纯提示）至L3（端到端闭环执行）；发现仅6.2%的基准任务覆盖占全美就业42%的前10大职业（如注册护士、零售销售员）；呼吁将‘劳动代表性’纳入AI代理伦理与政策评估框架。
相关研究

‘The Labor Market Impact of AI: Evidence from Job Postings’ (Acemoglu et al., 2023, NBER); ‘Occupational Automation Risk and the Future of Work’ (Frey & Osborne, 2017, OMI); ‘Benchmarking Foundation Models for Social Impact’ (Henderson et al., 2022, NeurIPS); ‘Beyond Accuracy: Behavioral Testing of NLP Models with CheckList’ (Ribeiro et al., 2020, ACL)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问