Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation

简介

合成用户是在评估对话式推荐系统中成本效益高的真实用户代理。大型语言模型展示了模拟类人行为的潜力，这引发了它们能否代表多样化用户群体的问题。我们引入了一个新的协议来衡量语言模型能够准确模拟人类在对话式推荐中的行为程度。该协议由五个任务组成，每个任务旨在评估合成用户应该表现出的一个关键属性：选择要谈论的物品，表达二元偏好，表达开放式偏好，请求推荐和给出反馈。通过对基线模拟器的评估，我们证明这些任务有效地揭示了语言模型与人类行为的偏差，并提供了如何通过模型选择和提示策略减少偏差的见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决如何评估对话推荐系统中语言模型对真实用户的代表性的问题。
关键思路

引入一个新的协议，通过五个任务来评估语言模型的能力，包括选择要讨论的物品、表达二元偏好、表达开放式偏好、请求推荐和给出反馈。
其它亮点

该论文通过评估基线模拟器，证明了这些任务有效地揭示了语言模型与人类行为之间的差异，并提供了有关如何通过模型选择和提示策略减少这些差异的见解。
相关研究

最近的相关研究包括“Towards Conversational Search and Recommendation: System Ask, User Respond”和“Towards Evaluating the Robustness of Neural Conversational Models”。

Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation

提问交流

提问交流