Themis: Towards Flexible and Interpretable NLG Evaluation

2024年06月26日
  • 简介
    自然语言生成(NLG)任务的评估是一个重要而古老的研究问题。随着强大的大型语言模型(LLMs)的出现,一些研究开始采用基于LLM的自动评估方法,这些方法展示了成为传统基于字符串和基于模型的度量标准之后的新评估范式的巨大潜力。然而,尽管现有方法的性能有所提高,但它们仍然存在一些缺陷,例如依赖于参考文献和评估灵活性有限。因此,在本文中,我们精心构建了一个大规模的NLG评估语料库NLG-Eval,其中包括人类和GPT-4的注释,以缓解该领域相关数据的缺乏。此外,我们提出了Themis,这是一个专门用于NLG评估的LLM,它已经通过我们设计的多角度一致性和面向评分的偏好对齐方法进行了训练。Themis可以进行灵活且可解释的无参考评估,并在各种NLG任务上展现出卓越的评估性能,同时对未见过的任务具有很好的泛化能力,并超越其他评估模型,包括GPT-4。
  • 图表
  • 解决问题
    NLG任务的评估一直是一个重要且长期存在的研究问题。本文试图通过构建大规模的人工和GPT-4注释的NLG评估语料库NLG-Eval和提出一个专门用于NLG评估的LLM模型Themis来解决这个问题。
  • 关键思路
    本文提出的Themis模型使用了多角度一致性和面向评分偏好的对齐方法,可以灵活且可解释地进行评估,同时在各种NLG任务上表现出卓越的性能。
  • 其它亮点
    本文的亮点包括构建了大规模的NLG评估语料库NLG-Eval,并提出了一种新的LLM模型Themis,该模型具有灵活性、可解释性和优异的评估性能。实验使用了多个数据集,模型的代码也已经开源。值得进一步研究的是如何将Themis应用于其他自然语言处理任务中。
  • 相关研究
    最近在NLG评估领域中,还有一些相关研究,如“BLEURT: Learning Robust Metrics for Text Generation”和“Evaluating Text GANs as Language Model Evaluators”。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论