Reference-based Metrics Disprove Themselves in Question Generation

2024年03月18日
  • 简介
    参考文献指标,如BLEU和BERTScore,被广泛用于评估问答生成(QG)。在本研究中,我们发现在像SQuAD和HotpotQA这样的QG基准测试中,使用人工编写的参考文献并不能保证参考指标的有效性。大多数QG基准测试只有一个参考文献;我们复制了注释过程并收集了另一个参考文献。一个好的指标应该评分不劣于生成的问题的人工验证问题。然而,我们新收集的参考文献上的参考指标结果证明了指标本身的不准确性。我们提出了一种无参考指标,由多维标准组成,如自然度,可回答性和复杂性,利用大型语言模型。这些标准不受单个参考问题的句法或语义的限制,指标不需要多样化的参考文献集。实验表明,我们的指标准确地区分高质量问题和有缺陷的问题,并实现了与人类判断的最新对齐。
  • 图表
  • 解决问题
    本论文试图解决参考文献评价方法在问答生成(QG)中的有效性问题,提出了一种基于多维度标准的无参考度量方法。
  • 关键思路
    该论文提出了一种无参考度量方法,利用大型语言模型对自然度、可回答性和复杂度等多个维度进行评价,不受单一参考问题句法或语义的限制,能够准确区分高质量和有缺陷的问题。
  • 其它亮点
    论文发现使用人工编写的参考问题并不能保证参考文献评价方法的有效性,因此提出了一种基于多维度标准的无参考度量方法。实验结果表明,该方法能够达到与人类判断的最高一致性,并且能够准确区分高质量和有缺陷的问题。论文使用了SQuAD和HotpotQA等数据集,并开源了代码。
  • 相关研究
    近期的相关研究包括利用语言模型对QG进行评价的研究,如BERTScore等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论