预训练语言模型在百度大规模网页召回中的应用

Pre-trained Language Model for Web-scale Retrieval in Baidu Search

论文链接:https://dl.acm.org/doi/10.1145/3447548.3467149

召回是网页搜索中的重要阶段,其功能在于从海量网页库中找到一个相对较小的相关候选集。其中,基于语义相关的召回有助于展现更多高质量的搜索结果给用户。但是,搭建和部署一个高效的语义召回模型,在搜索引擎业务中一直面临着诸多挑战。本文介绍了目前百度搜索中所使用的基于预训练语言模型的召回系统。此系统采用了百度自研的中文预训练语言ERNIE,通过应用基于多层Transformer的模型结构,以及多阶段的训练流程,赋予了召回系统强大的语义匹配能力。同时,本文还介绍了基于预训练的召回模型在整个召回系统中的工作流程。通过严谨的离线和线上实验验证,基于预训练语言模型的召回系统已全量部署在百度搜索业务中,提升了百度搜索的整体效果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除