- 简介自动开放域对话评估引起了越来越多的关注。可训练的评估指标通常使用真正的正面回复和随机选择的负面回复进行训练,导致它们倾向于给与与给定上下文内容相似度更高的回复更高的分数。然而,对抗性负面回复与上下文具有很高的内容相似性,但在语义上不同。因此,现有的评估指标不足以评估这种回复,导致与人类判断的相关性较低。虽然最近的研究已经显示出利用大型语言模型(LLMs)进行开放域对话评估的一定有效性,但它们仍然在有效处理对抗性负面示例方面遇到挑战。在本文中,我们提出了一个简单而有效的开放域对话评估框架,将领域特定语言模型(SLMs)与LLMs相结合。通过门控机制,SLMs可以明确地将对话的抽象意义表示(AMR)图信息融入其中,以增强语义表示学习。SLMs和AMR图信息的评估结果被插入到LLM的提示中,以增强上下文学习性能。开放域对话评估任务的实验结果表明,与各种最先进的基线相比,我们的方法在区分对抗性负面回复方面表现出优越性。我们的代码可在https://github.com/Bernard-Yang/SIMAMR上获得。
- 图表
- 解决问题论文旨在解决开放领域对话评估中存在的问题,即现有的评估指标对于对话中的对抗性负例响应评估不够健壮。
- 关键思路论文提出了一种简单而有效的框架,将领域特定语言模型(SLM)与大型语言模型(LLM)相结合,以提高对话的语义表示学习和上下文学习性能。
- 其它亮点论文使用了Abstract Meaning Representation(AMR)图信息,并通过门控机制将其显式地纳入到SLM中,以增强语义表示学习。实验结果表明,该方法在开放领域对话评估任务中优于当前的大量最先进的基准线,特别是在区分对抗性负例响应方面。代码已在GitHub上开源。
- 最近的研究表明,利用大型语言模型进行开放领域对话评估是有效的,但仍面临着有效处理对抗性负例的挑战。相关研究包括“BERTScore: Evaluating Text Generation with BERT”,“DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation”,“A Simple and Effective Approach to Open-Domain Dialogue State Tracking”。
沙发等你来抢
去评论
评论
沙发等你来抢