- 简介情感支持对话(ESC)是一个关键的应用程序,旨在减少人类的压力,提供情感指导,最终提高人类的心理和身体健康。随着大型语言模型(LLMs)的进步,许多研究人员已经将LLMs用作ESC模型。然而,这些基于LLMs的ESC的评估仍然存在不确定性。受角色扮演代理的巨大发展启发,我们提出了一个ESC评估框架(ESC-Eval),该框架使用角色扮演代理与ESC模型交互,然后手动评估交互式对话。具体而言,我们首先重新组织了来自七个现有数据集的2,801张角色扮演卡片,以定义角色扮演代理的角色。其次,我们训练了一个名为ESC-Role的特定角色扮演模型,其行为更像是一个困惑的人,而不是GPT-4。第三,在ESC-Role和组织好的角色卡片的帮助下,我们使用14个LLMs作为ESC模型系统地进行实验,包括通用AI助手LLMs(ChatGPT)和面向ESC的LLMs(ExTES-Llama)。我们对不同ESC模型的交互式多轮对话进行了全面的人工注释。结果表明,与通用AI助手LLMs相比,面向ESC的LLMs表现出更优秀的ESC能力,但仍存在与人类表现之间的差距。此外,为了自动化未来ESC模型的评分过程,我们开发了ESC-RANK,该模型在注释数据上进行了训练,实现了超过GPT-4的35分的评分性能。我们的数据和代码可在https://github.com/haidequanbu/ESC-Eval上获得。
- 图表
- 解决问题该论文旨在提出一种评估情感支持对话系统的框架,以减轻人类压力,提供情感指导,从而增强人类的身心健康。
- 关键思路该论文提出了一个使用角色扮演代理与情感支持对话系统进行交互并进行手动评估的框架,通过对14个LLM进行实验,发现情感支持对话系统比通用AI助手LLM表现更好,但与人类表现仍有差距。
- 其它亮点论文重新组织了7个现有数据集的2801个角色扮演卡片,定义了角色扮演代理的角色,并训练了一个特定的角色扮演模型ESC-Role,通过ESC-Role和组织好的角色卡片,系统地对14个LLM进行实验,进行了全面的人工注释,并开发了ESC-RANK自动评分系统。
- 最近的相关研究包括使用LLM作为情感支持对话系统的模型,以及使用自然语言处理技术进行情感分析和情感识别的研究。
沙发等你来抢
去评论
评论
沙发等你来抢