Measuring AI Ability to Complete Long Tasks

2025年03月18日
  • 简介
    尽管在人工智能基准测试上取得了快速进展,但基准测试性能在现实世界中的意义仍然不明朗。为了以人类能力为参照量化人工智能系统的性能,我们提出了一种新指标:50%-任务完成时间范围(50%-task-completion time horizon)。这一指标是指人类通常完成某项任务所需的时间,而人工智能模型在此时间内完成该任务的成功率为50%。我们首先对具有相关领域专业知识的人类进行了计时测试,测试内容包括RE-Bench、HCAST以及66个全新的简短任务组合。在这些任务中,当前前沿的人工智能模型(如Claude 3.7 Sonnet)的50%时间范围大约为50分钟。此外,自2019年以来,前沿人工智能的时间范围每七个月左右就会翻一番,尽管这一趋势可能在2024年有所加速。人工智能模型时间范围的增长似乎主要由更高的可靠性、更强的适应错误能力,以及更好的逻辑推理和工具使用能力所驱动。我们讨论了研究结果的局限性,包括其外部有效性程度,并探讨了人工智能自主性增强对潜在危险能力的影响。如果这些结果可以推广到现实世界的软件任务中,那么按照这一趋势进行外推可以预测,在未来五年内,人工智能系统将能够自动化许多目前需要人类花费一个月才能完成的软件任务。
  • 作者讲解·4
  • 图表
  • 解决问题
    论文试图通过提出50%-task-completion时间 horizon 指标,量化AI模型在实际任务中的表现与人类能力的差距。这是一个新问题,因为它尝试将AI基准测试的表现映射到现实世界中的人类任务完成时间。
  • 关键思路
    关键思路是定义并计算AI系统的50%任务完成时间 horizon,并将其与人类完成类似任务的时间进行比较。相比现有研究,该论文不仅关注AI的绝对性能,还强调其相对于人类的能力水平和进步速度,特别是可靠性、逻辑推理和工具使用能力的提升。
  • 其它亮点
    实验设计包括对人类专家的任务完成时间测量,结合RE-Bench、HCAST及66个新短任务。数据表明,前沿AI模型(如Claude 3.7)的50% time horizon约为50分钟,且自2019年以来每7个月翻倍。论文开源了部分任务设计和实验结果,值得进一步研究的是如何将这些发现应用到更广泛的领域,例如软件开发自动化。
  • 相关研究
    相关研究包括:1) 基准测试领域的研究,如BIG-bench和MMLU;2) AI可靠性和错误适应能力的研究,例如《Learning from Mistakes: Improving Model Robustness》;3) 工具使用和多模态推理的研究,如《Toolformer: Extending Language Models with Tool Use》;4) 技术进步预测的研究,如《Moore's Law for Everything》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问