Towards a Client-Centered Assessment of LLM Therapists by Client Simulation

简介

虽然越来越多的人认为语言模型可以用作治疗师，但是从客户的角度，探索语言模型的能力和无效性仍然有限。本文聚焦于通过模拟客户的方式，进行以客户为中心的LLM治疗师评估，这是临床医学教育中的标准方法。然而，将该方法应用于大规模评估LLM治疗师存在两个挑战。伦理上，频繁要求人类模拟客户并暴露于潜在有害的LLM输出可能存在风险和不安全性。技术上，难以一致地比较不同LLM治疗师与同一客户互动的表现。为此，我们采用LLM模拟客户，并提出了一种名为ClientCAST的以客户为中心的评估LLM治疗师的方法。具体而言，利用模拟客户与LLM治疗师互动，并完成与互动相关的问卷。根据问卷结果，从三个客户中心的方面评估LLM治疗师：会话结果、治疗联盟和自我报告的感受。我们进行实验以检验ClientCAST的可靠性，并使用它评估Claude-3、GPT-3.5、LLaMA3-70B和Mixtral 8*7B实现的LLM治疗师。代码已在https://github.com/wangjs9/ClientCAST上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过模拟客户的方式，评估语言模型治疗师的能力和效果，解决了客户角度评估LLM治疗师的方法和大规模评估的两个挑战。
关键思路

使用LLM模拟客户，提出了一种基于客户模拟的评估LLM治疗师的方法ClientCAST，从会话结果、治疗联盟和自我报告感受三个方面评估LLM治疗师。
其它亮点

实验结果表明，ClientCAST是一种可靠的评估LLM治疗师的方法。研究者使用Claude-3、GPT-3.5、LLaMA3-70B和Mixtral 8*7B等LLM模型进行了实验评估，并公开了代码。
相关研究

近期的相关研究包括使用LLM作为治疗师的研究，但很少从客户角度评估LLM治疗师的效果。

Towards a Client-Centered Assessment of LLM Therapists by Client Simulation

提问交流

提问交流