UserBench: An Interactive Gym Environment for User-Centric Agents

2025年07月29日
  • 简介
    基于大语言模型(LLMs)的智能体在推理和工具使用方面取得了显著进展,使它们能够解决复杂的任务。然而,当用户目标模糊、不断变化或以间接方式表达时,这些智能体主动与用户协作的能力仍未得到充分探索。为填补这一空白,我们推出了 UserBench,这是一个以用户为中心的基准测试,旨在评估智能体在多轮、以偏好为导向的互动中的表现。UserBench 的特点在于模拟了一些用户,这些用户一开始的目标并不明确,并会逐步透露自己的偏好,这就要求智能体必须主动澄清用户意图,并在使用工具时做出有依据的决策。我们对当前领先的开源和闭源大语言模型的评估揭示了任务完成与用户意图对齐之间存在显著脱节。例如,模型平均仅有 20% 的回答能完全符合用户的所有意图,甚至最先进的模型通过主动互动也只能发现不到 30% 的用户偏好。这些结果突显了构建真正协作型智能体所面临的挑战,而不仅仅是任务执行者。UserBench 提供了一个互动环境,用于衡量和推动这一关键能力的发展。
  • 作者讲解·3
  • 图表
  • 解决问题
    论文旨在解决大型语言模型(LLMs)代理在与用户进行多轮交互时,难以主动理解并适应用户模糊、演变或间接表达的目标的问题。这是一个相对未被充分探索的问题,特别是在用户目标不明确的情况下如何实现用户对齐。
  • 关键思路
    论文提出UserBench,一个以用户为中心的基准,用于评估代理在偏好驱动的多轮对话中的表现。其核心创新在于模拟具有逐步揭示偏好的用户,要求代理主动澄清用户意图,并在使用工具时做出基于上下文的决策。
  • 其它亮点
    1. UserBench引入了动态、交互式的评估环境,强调用户对齐而非单纯的指令执行。 2. 实验结果显示,即使是当前最先进的模型,在主动探索用户偏好方面也表现不佳(平均仅20%的用户意图被完全理解)。 3. 论文强调了任务完成与用户满意度之间的显著差距,突出了构建真正协作型代理的挑战。 4. UserBench提供了一个可扩展、可交互的测试平台,有助于推动人机协作方向的研究。
  • 相关研究
    1. Towards Cooperative Human-Agent Interaction (2023) 2. Interactive Learning with Implicit User Preferences (2022) 3. Proactive Intent Recognition in Conversational AI (2024) 4. The Role of Clarification in Task-Oriented Dialogue Systems (2021) 5. User Simulation for Evaluating Dialogue Systems: A Survey (2022)
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问