长篇问答任务（LFQA）的发展面临哪些阻碍？

PaperWeekly｜蔡杰学校｜北京大学硕士生研究方向｜QA

Long-form question answering

长文本问答（LFQA）的任务包括检索与给定问题相关的文档，并使用它们生成一个段落长度的答案。

Problem 1:

作者做了一个有趣的实验：将 retriver 检索到的文档在 inference 阶段替换为随机采样的文档。人工 A/B 测试和 ROUGE-L 等自动指标的结果表明，对替换为随机文档的操作对生成的答案质量几乎没有影响。

原因是 train-set 和 validation-set 中存在大量相似问题集合，validation-set 中至少有 81% 的问题被改写后在 train-set 中出现，几乎所有的验证问题都与训练集问题在主题上相似。一个使用 random retriver 的系统在 ELI5 上表现更好。因此这是目前长文本问答存在的一个隐患问题。

Problem 2:

ROUGE-L 评测指标的问题。简单的 baseline，只需要重复 copy 问题，或随机选择一个 train-set 钟的答案，就可以优于普通的 LFQA 系统，如 RAG（Lewis et al., 2020c）。

更不正常的是，作者提出的系统给出的答案甚至能够达到比人类书写的答案更高的 ROUGE-L。因此作者认为 ROUGE-L 不是一个可靠的评估 LFQA 的方法，因为它的输出空间大且相对不受限制（例如，与翻译或总结相比）。

论文标题：Hurdles to Progress in Long-form Question Answering
论文链接：https://arxiv.org/pdf/2103.06332.pdf
论文来源：NAACL 2021

论文的详细方法可以戳原文阅读。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

长篇问答任务（LFQA）的发展面临哪些阻碍？

评论列表

评论