- 简介自动评估开放域对话系统中回复的质量是一项具有挑战性但至关重要的任务。当前的评估指标经常无法与人类判断相一致,特别是在评估语法正确的回复时。为了解决这个问题,我们提出了一种新的指标,称为CausalScore,通过测量对话历史和回复之间的因果强度来评估回复的相关性。因果强度是通过利用对话历史到回复的无条件依赖和条件依赖来估计的。我们将我们的指标与现有的竞争指标进行比较,以确定它们与人类判断的一致性。我们的实验结果表明,CausalScore在与人类判断的一致性方面明显优于现有的最先进指标。此外,我们收集了一个新的对话数据集CGDIALOG+,其中包含人工注释的因果关系和一组成对的人类判断,以促进未来自动指标的发展。
- 图表
- 解决问题如何评估开放领域对话系统中回复的质量?当前的评估指标往往无法与人类判断相一致。
- 关键思路提出一种新的评估指标CausalScore,通过测量对话历史和回复之间的因果强度来评估回复的相关性。
- 其它亮点实验结果表明,CausalScore比现有的评估指标更能与人类判断相一致。同时,作者还收集了一个新的对话数据集CGDIALOG+,并提供了人类注释的因果关系和一组成对的人类判断。
- 在相关研究方面,目前有一些评估指标,如BLEU和Perplexity。
沙发等你来抢
去评论
评论
沙发等你来抢