- 简介大型语言模型(LLMs)已经在纽约大学朗格恩医院、Dana-Farber和英国国家医疗服务体系等医院系统中进行了临床试用。其中一个提出的部署用例是心理治疗,LLM驱动的聊天机器人可以治疗正在经历心理健康危机的患者。LLMs在心理健康响应方面的部署可以在理论上扩大接受心理治疗的范围,并为个性化护理提供新的可能性。然而,最近高调的失败案例,比如Tessa聊天机器人向患有饮食障碍的患者提供有害的减肥建议,导致人们对它们在高风险和安全关键环境中的可靠性产生了怀疑。 在这项工作中,我们开发了一个评估框架,以确定LLM响应是否是自动化心理健康治疗的可行和道德前进道路。我们使用训练有素的临床医生进行人类评估,并使用基于心理学研究的自动医疗质量指标,比较点对点响应者提供的响应与最先进的LLM提供的响应。 我们展示了像GPT-4这样的LLMs使用隐含和显式线索来推断患者人口统计学信息,比如种族。然后我们展示了在患者子组之间存在统计学显著差异:对黑人海报的回应始终比其他人口统计学群体的回应更缺乏同理心(比对照组低2%-13%)。令人鼓舞的是,我们发现响应生成的方式显著影响响应的质量。最后,我们提出了LLMs潜在部署的安全指南,用于心理健康响应。
- 图表
- 解决问题评估大型语言模型在心理治疗中的可行性和伦理性,以及其在高风险和安全关键环境中的可靠性
- 关键思路使用人类评估和基于心理学研究的自动质量评估指标,比较大型语言模型和同行之间提供的回复,提出安全指导方针
- 其它亮点发现大型语言模型可以利用隐含和显性线索推断患者的人口统计信息,回复中存在人种差异,提出安全指导方针
- 最近的相关研究包括使用大型语言模型进行心理治疗的实证研究,以及探索大型语言模型在医疗保健中的应用
沙发等你来抢
去评论
评论
沙发等你来抢