作者: Man Luo

简介:本文研究信息检索器(IR)利用预训练方法的新思路提案。IR旨在大规模查找给定查询的相关文档(例如片段、段落和文章)。IR在许多任务中发挥着重要作用,例如需要外部知识的开放领域问答和对话系统。过去,基于词匹配的搜索算法得到了广泛的应用。近年来,基于神经的算法(称为神经检索器)受到了越来越多的关注,它可以缓解传统方法的局限性。尽管神经检索器取得了成功,但它们仍然面临许多挑战,例如,需要少量的训练数据,无法回答简单的以实体为中心的问题。此外,现有的大多数神经检索器都是为纯文本查询而开发的。这会阻止它们处理多模态查询(即查询由文本描述和图像组成)。本论文提案有两个目标:首先,作者从三个角度介绍了解决神经检索器上述问题的方法,即新的模型结构、面向IR的预训练任务和生成大规模训练数据;其次,明确了未来的研究方向、并提出了相应的解决方案。

论文下载:https://arxiv.org/pdf/2205.16005

内容中包含的图片若涉及版权问题,请及时与我们联系删除