Pre-trained Language Model based Ranking in Baidu Search

论文链接:https://dl.acm.org/doi/10.1145/3447548.3467147

排序作为搜索的核心,在满足用户的信息需求方面起着至关重要的作用。近来,基于预训练语言模型 (PLM) 的微调方法取得了当前最好的效果。然而,在大规模搜索引擎中应用基于PLM的排序模型却并不容易:1. PLM的计算成本过高,尤其是对于排序中的长文本,限制了他们在低延时系统中的部署;2. 现有的预训练目标与相关性无关,直接应用相关性无关的PLM模型,是限制基于PLM的排序模型的另一个主要障碍;3. 现有的排序模型需要和其他排序模型共同应用,因此模型与其他模型的兼容性对于一个排序系统来说也至关重要。

在本工作中,我们提出了一系列如何成功部署最先进的中文预训练语言模型(ERNIE)的技术。首先,我们阐明了如何高效地抽取文档的摘要,并提出了能强大的Pyramid-ERNIE 架构将查询、标题和摘要三者建模。然后,我们提出了一个范式来精细地利用大规模的有噪声和偏见的点击后行为数据进行面向相关性的预训练。其次,我们还提出了一种为在线排名系统量身定制的人工锚定微调策略,旨在保证基于PLM的排序模型和其他模块的兼容性。最后,大量的离线和在线实验结果表明,所提出的方法可以显着提高了搜索引擎的性能。

内容中包含的图片若涉及版权问题,请及时与我们联系删除