- 简介虽然越来越多的人认为语言模型可以用作治疗师,但是从客户的角度,探索语言模型的能力和无效性仍然有限。本文聚焦于通过模拟客户的方式,进行以客户为中心的LLM治疗师评估,这是临床医学教育中的标准方法。然而,将该方法应用于大规模评估LLM治疗师存在两个挑战。伦理上,频繁要求人类模拟客户并暴露于潜在有害的LLM输出可能存在风险和不安全性。技术上,难以一致地比较不同LLM治疗师与同一客户互动的表现。为此,我们采用LLM模拟客户,并提出了一种名为ClientCAST的以客户为中心的评估LLM治疗师的方法。具体而言,利用模拟客户与LLM治疗师互动,并完成与互动相关的问卷。根据问卷结果,从三个客户中心的方面评估LLM治疗师:会话结果、治疗联盟和自我报告的感受。我们进行实验以检验ClientCAST的可靠性,并使用它评估Claude-3、GPT-3.5、LLaMA3-70B和Mixtral 8*7B实现的LLM治疗师。代码已在https://github.com/wangjs9/ClientCAST上发布。
-
- 图表
- 解决问题本论文旨在通过模拟客户的方式,评估语言模型治疗师的能力和效果,解决了客户角度评估LLM治疗师的方法和大规模评估的两个挑战。
- 关键思路使用LLM模拟客户,提出了一种基于客户模拟的评估LLM治疗师的方法ClientCAST,从会话结果、治疗联盟和自我报告感受三个方面评估LLM治疗师。
- 其它亮点实验结果表明,ClientCAST是一种可靠的评估LLM治疗师的方法。研究者使用Claude-3、GPT-3.5、LLaMA3-70B和Mixtral 8*7B等LLM模型进行了实验评估,并公开了代码。
- 近期的相关研究包括使用LLM作为治疗师的研究,但很少从客户角度评估LLM治疗师的效果。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流