Agent-as-a-Judge: Evaluate Agents with Agents

2024年10月14日
  • 简介
    当前的评估技术对于代理系统来说是不充分的。这些方法要么只关注最终结果——忽略了代理系统的逐步性质,要么需要过多的人工劳动。为了解决这一问题,我们引入了“代理即法官”框架,其中使用代理系统来评估其他代理系统。这是“大语言模型即法官”框架的自然延伸,结合了代理特征,能够为整个任务解决过程提供中间反馈。我们将“代理即法官”应用于代码生成任务。为了克服现有基准的问题并为“代理即法官”提供一个概念验证测试平台,我们提出了DevAI,这是一个包含55个现实的自动化AI开发任务的新基准。它包括丰富的手动注释,例如总共365个层次化的用户需求。我们使用“代理即法官”对三个流行的代理系统进行了基准测试,并发现其显著优于“大语言模型即法官”,并且与我们的人类评估基线一样可靠。总的来说,我们认为“代理即法官”标志着现代代理系统向前迈出了坚实的一步——通过提供丰富且可靠的奖励信号,这些信号对于动态和可扩展的自我改进是必要的。
  • 图表
  • 解决问题
    论文试图解决当代评估技术在评估代理系统时的不足,特别是这些技术要么只关注最终结果而忽视了代理系统的逐步性质,要么需要大量的手动劳动。这是一个新问题,尤其是在代理系统日益复杂和自主的情况下。
  • 关键思路
    论文提出了一种名为Agent-as-a-Judge的新框架,通过使用代理系统来评估其他代理系统,从而提供整个任务解决过程中的中间反馈。这一框架是LLM-as-a-Judge框架的有机扩展,增加了代理系统的特有功能。相比现有的评估方法,这一框架能够更全面地评估代理系统的性能。
  • 其它亮点
    论文提出了一个名为DevAI的新基准测试集,包含55个现实的自动化AI开发任务和365个层次化的用户需求注释。实验结果显示,Agent-as-a-Judge框架显著优于LLM-as-a-Judge,并且与人类评估基线一样可靠。此外,该研究还提供了开源代码,为后续研究提供了坚实的基础。
  • 相关研究
    最近在这个领域,相关的研究包括《Evaluating and Improving Agent Performance with Human Feedback》、《Benchmarking Autonomous Agents in Complex Environments》和《A Framework for Continuous Evaluation of AI Systems》。这些研究都试图解决代理系统评估的挑战,但主要集中在特定的应用场景或有限的任务上,而本文提出的Agent-as-a-Judge框架则更加通用和全面。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论