Automated Capability Discovery via Model Self-Exploration

2025年02月11日
  • 简介
    基础模型已经成为通用助手,通过在大规模网络数据上进行训练,在众多领域展现出多样化的能力。然而,即使要准确描述任何一个新模型能力范围和潜在风险的一小部分仍然具有挑战性。现有的评估方法通常需要大量的人力,并且设计出更难的挑战来测试更强大的模型所需的努力也在不断增加。我们引入了自动化能力发现(ACD)框架,该框架指定一个基础模型作为“科学家”,系统地提出开放式任务以探测目标模型(可能是其自身)的能力。通过结合前沿模型与开放性领域的理念,ACD自动且系统地揭示了目标模型中令人惊讶的能力和失败。我们在一系列基础模型(包括GPT、Claude和Llama系列)上展示了ACD的应用,证明它可以自动揭示成千上万种单个团队难以发现的能力。我们进一步通过广泛的用户调查验证了我们的自动评分方法,观察到模型生成评估与人工评估之间有高度一致性。通过利用基础模型既能够创建任务又能够自我评估的能力,ACD是迈向可扩展、自动化评估新型AI系统的重大一步。所有代码和评估日志已在https://github.com/conglu1997/ACD 开源。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决对基础模型(foundation models)的能力和潜在风险进行全面评估的挑战。传统评估方法需要大量的人力,并且随着模型能力的增强,设计更难的任务也变得越来越困难。这是否是一个新问题?是的,因为基础模型的能力日益复杂,现有的评估方法已经无法充分揭示其全部潜力和局限。
  • 关键思路
    关键思路是引入自动化能力发现(ACD)框架,利用一个基础模型作为‘科学家’,系统地提出开放性任务来探测另一个目标模型的能力。这一方法结合了前沿模型和开放性领域的思想,能够自动、系统地揭示目标模型的惊人能力和失败之处。相比当前研究状况,ACD通过让模型自我生成任务并自我评估,大大减少了人工干预,提高了评估的效率和规模。
  • 其它亮点
    论文展示了ACD在多个基础模型(如GPT、Claude和Llama系列)上的应用,自动揭示了数千种难以被单一团队发现的能力。此外,作者通过广泛的用户调查验证了模型自动生成评分的有效性,显示出与人类评价的高度一致性。所有代码和评估日志均已开源,可以在GitHub上找到(https://github.com/conglu1997/ACD)。未来值得深入研究的方向包括进一步优化ACD框架,以及探索更多样化的评估场景。
  • 相关研究
    最近在这个领域中,相关的研究还包括: 1.《Evaluating Large Language Models for Code Generation》——探讨了大型语言模型在代码生成方面的评估。 2.《Benchmarking Generalization in Pre-trained Language Models》——研究预训练语言模型的泛化能力。 3.《On the Opportunities and Risks of Foundation Models》——讨论了基础模型带来的机遇和风险。 4.《Automated Evaluation of Dialogue Systems with Human-in-the-loop》——介绍了对话系统的人机协作自动化评估方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问