- 简介合成用户是在评估对话式推荐系统中成本效益高的真实用户代理。大型语言模型展示了模拟类人行为的潜力,这引发了它们能否代表多样化用户群体的问题。我们引入了一个新的协议来衡量语言模型能够准确模拟人类在对话式推荐中的行为程度。该协议由五个任务组成,每个任务旨在评估合成用户应该表现出的一个关键属性:选择要谈论的物品,表达二元偏好,表达开放式偏好,请求推荐和给出反馈。通过对基线模拟器的评估,我们证明这些任务有效地揭示了语言模型与人类行为的偏差,并提供了如何通过模型选择和提示策略减少偏差的见解。
-
- 图表
- 解决问题论文旨在解决如何评估对话推荐系统中语言模型对真实用户的代表性的问题。
- 关键思路引入一个新的协议,通过五个任务来评估语言模型的能力,包括选择要讨论的物品、表达二元偏好、表达开放式偏好、请求推荐和给出反馈。
- 其它亮点该论文通过评估基线模拟器,证明了这些任务有效地揭示了语言模型与人类行为之间的差异,并提供了有关如何通过模型选择和提示策略减少这些差异的见解。
- 最近的相关研究包括“Towards Conversational Search and Recommendation: System Ask, User Respond”和“Towards Evaluating the Robustness of Neural Conversational Models”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流