PaperWeekly|蔡杰 学校|北京大学硕士生 研究方向|QA
Long-form question answering
长文本问答(LFQA)的任务包括检索与给定问题相关的文档,并使用它们生成一个段落长度的答案。
Problem 1:
作者做了一个有趣的实验:将 retriver 检索到的文档在 inference 阶段替换为随机采样的文档。人工 A/B 测试和 ROUGE-L 等自动指标的结果表明,对替换为随机文档的操作对生成的答案质量几乎没有影响。
原因是 train-set 和 validation-set 中存在大量相似问题集合,validation-set 中至少有 81% 的问题被改写后在 train-set 中出现,几乎所有的验证问题都与训练集问题在主题上相似。一个使用 random retriver 的系统在 ELI5 上表现更好。因此这是目前长文本问答存在的一个隐患问题。
Problem 2:
ROUGE-L 评测指标的问题。简单的 baseline,只需要重复 copy 问题,或随机选择一个 train-set 钟的答案,就可以优于普通的 LFQA 系统,如 RAG(Lewis et al., 2020c)。
更不正常的是,作者提出的系统给出的答案甚至能够达到比人类书写的答案更高的 ROUGE-L。因此作者认为 ROUGE-L 不是一个可靠的评估 LFQA 的方法,因为它的输出空间大且相对不受限制(例如,与翻译或总结相比)。
- 论文标题:Hurdles to Progress in Long-form Question Answering
- 论文链接:https://arxiv.org/pdf/2103.06332.pdf
- 论文来源:NAACL 2021
论文的详细方法可以戳原文阅读。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢