作者:Xiang Yue, Xiaoman Pan, Wenlin Yao,等
简介:本文研究预训练具有强大传输能力的两阶段开放域问答系统(检索器+读取器)的议题。关键挑战是如何在没有特定任务注释的情况下构建大量高质量的问答上下文三元组。具体来说,三元组应该通过以下方式与下游任务很好地保持一致:(i)覆盖广泛的领域(用于开放领域应用程序),(ii)将问题与其语义相关的上下文与支持证据联系起来(用于训练检索器), (iii) 识别上下文中的正确答案(用于训练 )。以前的预训练方法通常达不到这些要求中的一项或多项。在这项工作中,作者通过查阅 Wikipedia 中引用的数百万个参考文献,自动构建了一个满足所有三个标准的大型语料库。对齐良好的预训练信号对检索器和读取器都有很大的好处:作者预训练的检索器在前 20 位准确率中实现了 2%-10% 的绝对增益;基于作者预训练的读取器,整个系统的精确匹配提高了 4%。
论文下载:https://arxiv.org/pdf/2203.08928
数据与代码下载: https://github.com/xiangyue9607/C-MORE
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢