- 简介随着大型语言模型(LLMs)的出现,研究它们是否能在情感识别和同情回应等领域超过人类已成为研究的焦点。本文提出了一项全面的研究,探讨了四种最先进的LLMs:GPT-4、LLaMA-2-70B-Chat、Gemini-1.0-Pro和Mixtral-8x7B-Instruct在同情回应能力方面与人类基准的比较。我们邀请了1,000名参与者参加了一项用户研究,评估人类和四种LLMs对2,000个情感对话提示的同情质量,这些提示被精心挑选以涵盖32种不同的积极和消极情绪。我们的研究结果显示,LLMs的同情回应能力显著优于人类。其中,GPT-4表现最好,其回应被评为“好”的比例相对于人类基准提高了约31%。其次是LLaMA-2、Mixtral-8x7B和Gemini-Pro,它们的“好”回应比例分别提高了约24%、21%和10%。我们进一步分析了回应评分的细节,发现一些LLMs在回应特定情绪方面比其他LLMs表现更好。建议的评估框架提供了一种可扩展和适应性强的方法来评估新LLMs的同情能力,避免了未来研究需要复制本研究结果的需要。
-
- 图表
- 解决问题探究大型语言模型在情感识别和共情回应方面是否能超越人类,以及如何评估这些模型的表现。
- 关键思路通过对比四个最先进的大型语言模型和人类的表现,发现大型语言模型在共情回应方面的表现显著优于人类,其中GPT-4表现最佳。
- 其它亮点使用了包括32种不同的正面和负面情感在内的2000个对话提示,进行了一项1000名参与者的用户研究。发现某些大型语言模型在特定情感方面的表现显著优于其他模型。提出了一种可扩展和适应性强的评估框架,可以用于评估新的大型语言模型的共情回应能力。
- 最近的相关研究包括:《A Survey of Empathy in Artificial Intelligence》、《Empathetic Chatbot: A Survey and Some New Directions》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流