尽管现有的有参考指标(如BLEU)已经在机器翻译评价等任务上有较好的表现,但是对于开放端语言生成评价(如故事生成、对话生成)等具有一对多特性的任务,这些指标仍然与人工评价有较低的相关性。对此,EMNLP 2020中的《UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation》一文为开放端故事生成评价提出了一个可学习的无参考指标UNION,可以不需要任何参考文本即可对生成故事的质量进行评价。UNION采用自监督学习的方法,不依赖于任何人工标注和具体模型。在两个故事数据集上的实验表明,UNION在评价生成故事的质量上是一个更可靠的评价指标,与人工评价有更好的相关性,同时也比现有的SOTA评价指标更好的泛化性。

本篇是AI TIME策划的EMNLP 2020专题报告,邀请到论文作者、来自清华大学计算机系的博士生关健讲解UNION这一评价指标,感兴趣的可以戳原文链接。

内容中包含的图片若涉及版权问题,请及时与我们联系删除