Measuring AI Ability to Complete Long Tasks

2025年03月18日
  • 简介
    尽管在人工智能基准测试上取得了快速进展,但基准测试表现的真实世界意义仍然不明朗。为了以人类能力为参照来量化人工智能系统的性能,我们提出了一项新指标:50%任务完成时间范围(50%-task-completion time horizon)。这一指标指的是人类通常完成某项任务所需的时间,而人工智能模型在此时间内完成该任务的成功率为50%。我们首先对具备相关领域专业知识的人类进行了计时测试,测试内容包括RE-Bench、HCAST以及66个全新的简短任务组合。在这些任务中,当前前沿的人工智能模型(如Claude 3.7 Sonnet)的50%时间范围大约为50分钟。此外,自2019年以来,前沿人工智能的时间范围每七个月左右就会翻倍,尽管这一趋势可能在2024年有所加速。人工智能模型时间范围的增长似乎主要由更高的可靠性、更强的适应错误能力、更好的逻辑推理能力和工具使用能力所驱动。我们讨论了研究结果的局限性,包括其外部有效性程度,以及人工智能自主性增强对危险能力的影响。如果这些结果能够推广到现实世界的软件任务中,那么根据这一趋势进行外推可以预测,在未来五年内,人工智能系统将能够自动化许多目前需要人类花费一个月时间完成的软件任务。
  • 作者讲解·4
  • 图表
  • 解决问题
    该论文试图通过量化AI系统在人类任务完成时间上的表现,来评估当前AI模型的实际能力,并预测未来AI在自动化软件任务中的潜力。这是一个新的问题,因为它引入了‘50%-task-completion时间地平线’这一指标,用于衡量AI与人类能力的相对水平。
  • 关键思路
    论文的关键思路是提出并使用‘50%-task-completion时间地平线’作为新指标,将AI模型的能力与人类完成任务的时间进行对比。相比现有研究,这种方法更直接地衡量了AI系统的实际应用能力,并揭示了其进步趋势(每7个月翻倍)。此外,作者强调了AI可靠性、逻辑推理和工具使用能力对其性能提升的重要性。
  • 其它亮点
    论文设计了包括RE-Bench、HCAST以及66个新短任务在内的实验,涵盖了多种任务类型,并对具有领域专业知识的人类进行了时间测量。实验数据表明,前沿AI模型(如Claude 3.7 Sonnet)目前的50%时间地平线约为50分钟。此外,论文还讨论了结果的外部有效性及潜在风险,并提供了对未来5年AI能力的预测(可能实现许多需一个月的人类软件任务)。虽然没有提到开源代码,但实验设计和数据集为后续研究提供了重要参考。
  • 相关研究
    相关研究包括:1) AI基准测试进展的研究(例如GPT系列和PaLM系列模型的能力评估);2) 关于AI可靠性和错误修正能力的工作(如《Error Recovery in Large Language Models》);3) 探讨AI工具使用能力的研究(如《Toolformer: Extending Transformers with the Ability to Use Tools》)。此外,还有关于AI发展趋势的长期预测工作(如《Trends in AI Capability and Safety》)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问