Structured Information Matters: Incorporating Abstract Meaning Representation into LLMs for Improved Open-Domain Dialogue Evaluation

2024年04月01日
  • 简介
    自动开放域对话评估引起了越来越多的关注。可训练的评估指标通常使用真正的正面回复和随机选择的负面回复进行训练,导致它们倾向于将更高内容相似度的回复分配更高的分数。然而,对抗性负面回复与上下文具有高内容相似性,但在语义上却不同。因此,现有的评估指标不足以评估这些回复,导致与人类判断的相关性较低。虽然最近的研究已经显示出利用大型语言模型(LLMs)进行开放域对话评估的一定功效,但它们仍然面临有效处理对抗性负面示例的挑战。在本文中,我们提出了一个简单而有效的开放域对话评估框架,将领域特定的语言模型(SLMs)与LLMs相结合。SLMs可以通过门控机制显式地将对话的抽象意义表示(AMR)图信息纳入其中,以增强语义表示学习。SLMs和AMR图信息的评估结果被插入到LLM的提示中,以增强上下文学习性能。在开放域对话评估任务上的实验结果表明,我们的方法比广泛的最先进基线方法表现更好,尤其是在区分对抗性负面回复方面。我们的代码可在https://github.com/Bernard-Yang/SIMAMR上找到。
  • 图表
  • 解决问题
    本文旨在提出一种简单而有效的框架用于开放领域对话评估,特别是在区分敌对负面响应方面。现有的评估指标不能很好地评估这些响应,导致与人类判断的相关性不高。
  • 关键思路
    本文提出的方案是将领域特定语言模型(SLMs)与大型语言模型(LLMs)相结合。 SLM可以通过门控机制明确地将对话的抽象意义表示(AMR)图信息纳入语义表示学习中,而LLM则用于增强上下文学习性能。
  • 其它亮点
    实验结果表明,与各种最先进的基线相比,本文的方法在开放领域对话评估任务中表现优异,尤其是在区分敌对负面响应方面。作者已经在github上开源了他们的代码。
  • 相关研究
    最近的研究表明,利用大型语言模型(LLMs)进行开放领域对话评估是有效的。但是,当前的评估指标不能很好地评估敌对负面响应,因此需要更多的研究来解决这个问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论