Towards a Client-Centered Assessment of LLM Therapists by Client Simulation

2024年06月18日
  • 简介
    虽然越来越多的人认为语言模型可以用作治疗师,但是从客户的角度,探索语言模型的能力和无效性仍然有限。本文聚焦于通过模拟客户的方式,进行以客户为中心的LLM治疗师评估,这是临床医学教育中的标准方法。然而,将该方法应用于大规模评估LLM治疗师存在两个挑战。伦理上,频繁要求人类模拟客户并暴露于潜在有害的LLM输出可能存在风险和不安全性。技术上,难以一致地比较不同LLM治疗师与同一客户互动的表现。为此,我们采用LLM模拟客户,并提出了一种名为ClientCAST的以客户为中心的评估LLM治疗师的方法。具体而言,利用模拟客户与LLM治疗师互动,并完成与互动相关的问卷。根据问卷结果,从三个客户中心的方面评估LLM治疗师:会话结果、治疗联盟和自我报告的感受。我们进行实验以检验ClientCAST的可靠性,并使用它评估Claude-3、GPT-3.5、LLaMA3-70B和Mixtral 8*7B实现的LLM治疗师。代码已在https://github.com/wangjs9/ClientCAST上发布。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过模拟客户的方式,评估语言模型治疗师的能力和效果,解决了客户角度评估LLM治疗师的方法和大规模评估的两个挑战。
  • 关键思路
    使用LLM模拟客户,提出了一种基于客户模拟的评估LLM治疗师的方法ClientCAST,从会话结果、治疗联盟和自我报告感受三个方面评估LLM治疗师。
  • 其它亮点
    实验结果表明,ClientCAST是一种可靠的评估LLM治疗师的方法。研究者使用Claude-3、GPT-3.5、LLaMA3-70B和Mixtral 8*7B等LLM模型进行了实验评估,并公开了代码。
  • 相关研究
    近期的相关研究包括使用LLM作为治疗师的研究,但很少从客户角度评估LLM治疗师的效果。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问