GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks

2025年10月05日
  • 简介
    我们推出了GDPval,这是一个用于评估人工智能模型在现实世界中具有经济价值任务上表现能力的基准。GDPval涵盖了美国劳工统计局所列44个职业中的大部分工作活动,这些职业来自对美国国内生产总值(GDP)贡献最大的前九大行业。这些任务基于拥有平均14年经验的行业专业人士的实际工作内容构建而成。我们发现,前沿模型在GDPval上的表现随时间大致呈线性提升,当前最先进的模型在交付成果质量方面已接近行业专家水平。我们分析了前沿模型在辅以人类监督的情况下,完成GDPval任务的成本和速度相较于无辅助的人类专家是否更具优势。此外,我们还证明,增加推理投入、扩充任务上下文信息以及加强任务结构化支持均能提升模型在GDPval上的表现。最后,我们开源了一个包含220项任务的高质量子集,并在evals.openai.com提供公开的自动化评分服务,以促进未来对模型现实世界能力的研究。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在评估人工智能模型在现实世界中具有经济价值的任务上的表现。当前大多数AI基准测试集中在抽象或学术任务上,而忽视了对实际经济活动中关键职业任务的评估。GDPval试图填补这一空白,验证前沿AI模型是否能在真实、高价值的工作场景中达到或接近人类专家水平。
  • 关键思路
    提出GDPval这一新基准,覆盖美国GDP贡献最大的9个行业中44种职业的核心工作活动,任务基于拥有平均14年经验的专业人士的实际工作内容构建。通过系统评估模型性能随时间的变化趋势、推理投入、上下文和结构化支持的影响,探索AI在真实经济场景中的潜力。
  • 其它亮点
    实验设计严谨,涵盖多维度分析:模型性能随时间呈线性提升;当前最优模型已接近人类专家交付质量;引入人类监督后,AI可更低成本、更高效地完成任务;增加推理步骤、上下文信息和任务 scaffolding 显著提升表现。作者开源了包含220项任务的黄金子集,并在 evals.openai.com 提供公开自动化评分服务,极大促进后续研究。
  • 相关研究
    1. ‘Beyond the Imitation Game: Measuring and Extending the Capabilities of Language Models’ 2. ‘Holistic Evaluation of Language Models’ (HELM) 3. ‘Measuring Massive Multitask Language Understanding’ (MMLU) 4. ‘Language Models are Few-Shot Learners’ (GPT-3) 5. ‘Assessing AI’s Ability to Learn from Feedback in Real-World Tasks’
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问