PaperWeekly|蔡杰 学校|北京大学硕士生 研究方向|QA

Long-form question answering

长文本问答(LFQA)的任务包括检索与给定问题相关的文档,并使用它们生成一个段落长度的答案。

Problem 1:

作者做了一个有趣的实验:将 retriver 检索到的文档在 inference 阶段替换为随机采样的文档。人工 A/B 测试和 ROUGE-L 等自动指标的结果表明,对替换为随机文档的操作对生成的答案质量几乎没有影响。

原因是 train-set 和 validation-set 中存在大量相似问题集合,validation-set 中至少有 81% 的问题被改写后在 train-set 中出现,几乎所有的验证问题都与训练集问题在主题上相似。一个使用 random retriver 的系统在 ELI5 上表现更好。因此这是目前长文本问答存在的一个隐患问题。

Problem 2:

ROUGE-L 评测指标的问题。简单的 baseline,只需要重复 copy 问题,或随机选择一个 train-set 钟的答案,就可以优于普通的 LFQA 系统,如 RAG(Lewis et al., 2020c)。

更不正常的是,作者提出的系统给出的答案甚至能够达到比人类书写的答案更高的 ROUGE-L。因此作者认为 ROUGE-L 不是一个可靠的评估 LFQA 的方法,因为它的输出空间大且相对不受限制(例如,与翻译或总结相比)。

论文的详细方法可以戳原文阅读。

内容中包含的图片若涉及版权问题,请及时与我们联系删除