- 简介ChatGPT和其他大型语言模型(LLMs)的出现极大地增加了利用LLMs作为治疗师来支持面临心理健康挑战的个人的兴趣。然而,由于缺乏系统性的研究,我们对LLM治疗师的行为,即它们如何回应客户的方式,了解非常有限。了解它们在广泛的客户和情况下的行为对于准确评估它们在心理健康的高风险环境中的能力和局限性至关重要,因为不良行为可能导致严重后果。在本文中,我们提出了BOLT,这是一个新颖的计算框架,用于研究LLMs作为治疗师时的对话行为。我们开发了一种上下文学习方法,以量化基于13种不同的心理治疗技术的LLMs的行为,包括反思、问题、解决方案、规范化和心理教育。随后,我们将LLM治疗师的行为与高质量和低质量人类治疗的行为进行比较,并研究如何调节它们的行为,以更好地反映高质量治疗中观察到的行为。我们对GPT和Llama-variants的分析表明,这些LLMs通常更像是低质量治疗中更常见的行为,而不是高质量治疗,例如在客户分享情感时提供更高程度的解决问题建议,这与典型的建议相反。同时,与低质量治疗不同,LLMs更多地反映客户的需求和优势。我们的分析框架表明,尽管LLMs能够生成看似类似于人类治疗师的轶事性例子,但LLM治疗师目前并不完全符合高质量护理标准,因此需要进一步研究以确保质量护理。
- 图表
- 解决问题研究LLMs作为治疗师时的对话行为,评估其能力和局限性,以确保其在心理健康领域提供高质量的治疗服务。
- 关键思路提出了一种计算框架BOLT,通过13种不同的心理治疗技术来量化衡量LLMs的对话行为,并将其与高质量和低质量人工治疗进行比较,研究如何调节LLMs的行为以更好地反映高质量治疗的行为。
- 其它亮点研究发现,LLMs的对话行为往往类似于低质量治疗,如在客户分享情感时提供更多的问题解决建议,这是违反典型建议的。但与低质量治疗不同的是,LLMs更多地反思客户的需求和优势。研究框架表明,LLMs治疗师目前还不完全符合高质量治疗的要求,因此需要进一步研究以确保提供高质量的护理。
- 最近的相关研究包括:1. GPT-3的应用研究;2. LLMs在情感识别和情感支持方面的研究。
沙发等你来抢
去评论
评论
沙发等你来抢