$τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

2024年06月17日
  • 简介
    现有的基准测试并不测试语言代理与人类用户的交互或遵循特定领域规则的能力,这两点对于将它们部署在真实世界应用中至关重要。我们提出了 $\tau$-bench,这是一个基准测试,模拟了用户(由语言模型模拟)和提供有特定领域 API 工具和策略指南的语言代理之间的动态对话。我们采用了一种高效而忠实的评估过程,将对话结束时的数据库状态与注释的目标状态进行比较。我们还提出了一个新的度量标准(pass^k),用于评估代理行为在多次试验中的可靠性。我们的实验表明,即使是最先进的函数调用代理(如 gpt-4o)也只能在不到 50% 的任务上成功,并且相当不一致(在零售业中,pass^8 小于 25%)。我们的研究结果表明,有必要采用方法来提高代理的一致行为和可靠遵循规则的能力。
  • 图表
  • 解决问题
    本文旨在提出一种新的基准测试方法,以测试语言代理与人类用户的交互和遵循特定领域规则的能力。同时,也提出了一种新的度量标准以评估代理行为的可靠性。
  • 关键思路
    本文提出了一种名为$ au$-bench的基准测试方法,用于模拟用户与语言代理之间的动态对话,并提供特定领域API工具和策略指南。评估过程采用高效且准确的方法,将对话结束时的数据库状态与注释的目标状态进行比较。同时提出了一种新的度量标准(pass^k)以评估代理行为的可靠性。
  • 其它亮点
    本文的实验结果表明,即使是最先进的函数调用代理(如gpt-4o),也只能在不到50%的任务上成功,并且不够一致。本文提出的$ au$-bench基准测试方法可以用于评估语言代理的性能,并且可以为开发更可靠的代理提供指导。
  • 相关研究
    最近在这个领域中,也有其他相关的研究。例如,Dialog State Tracking Challenge(DSTC)是一个用于评估对话状态跟踪系统的基准测试。另外,还有一些研究关注于改进语言代理的可解释性和自我学习能力,例如BERT和GPT-3。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论