文本排名的目标是生成从语料库中检索的有序文本列表,以响应查询。虽然文本排名最常见的公式是搜索,但在许多自然语言处理应用程序中也能找到任务实例。本次调查概述了被称为变换器的神经网络架构的文本排名,其中 BERT 是最有名的例子。变换器和自我监督预训练的结合毫不夸张地彻底改变了自然语言处理(NLP)、信息检索(IR)等领域。在本次调查中,我们为希望更好地了解如何将变换器应用于文本排名问题的从业者和希望从事这一领域的工作的研究人员提供了现有工作的综合点。我们涵盖了广泛的现代技术,分为两个高级类别:变换器模型,在多阶段排名架构中执行重新排名,并学习密集的表示,试图直接执行排名。我们的调查有两个主题:处理长文档的技术,超越 NLP 中使用的典型逐句处理方法,以及解决有效性(结果质量)和效率(查询延迟)之间的权衡的技术。虽然变换器架构和预训练技术是最近的创新,但如何应用于文本排名的许多方面都相对了解,代表了成熟的技术。然而,仍有许多悬而未决的研究问题,因此,除了为文本排名奠定预训练变换器的基础外,本次调查还试图预测该领域的发展方向。

内容中包含的图片若涉及版权问题,请及时与我们联系删除