Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation

2024年06月12日
  • 简介
    人类评估是评估自然语言生成(NLG)系统质量的金标准。然而,作为确保可靠和可重复的人类评估的关键要素的评估指南却受到了限制。我们的调查发现,仅有29.84%的最近涉及人类评估的论文在顶级会议上发布了评估指南,其中77.09%的指南存在漏洞。不可靠的评估指南可能会产生不准确的评估结果,可能会阻碍NLG朝正确方向发展。为了解决这些挑战,我们迈出了可靠评估指南的第一步,并提出了第一个人类评估指南数据集,通过收集从现有论文中提取的指南注释以及通过大型语言模型(LLM)生成的指南来实现。我们还引入了八个漏洞的分类法,并制定了一个编写评估指南的原则。此外,使用LLM探索了检测指南漏洞的方法,并提供了一组增强人类评估可靠性的建议。注释的人类评估指南数据集和漏洞检测方法的代码可在网上公开获取。
  • 图表
  • 解决问题
    如何提高自然语言生成(NLG)系统的人类评估可靠性?
  • 关键思路
    提出人类评估指南数据集,包括漏洞检测方法和评估指南编写原则,以提高评估指南的可靠性。
  • 其它亮点
    提出人类评估指南数据集,包括漏洞检测方法和评估指南编写原则,以提高评估指南的可靠性。漏洞检测方法使用大型语言模型,数据集和代码公开可用。
  • 相关研究
    最近相关研究主要集中在NLG系统的评估方法上,例如基于对话的评估方法和自动评估方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论