Best Practices for Distilling Large Language Models into BERT for Web Search Ranking

向作者提问

NEW

简介

最近的研究强调了大型语言模型（LLMs）作为零样本相关性排序器的巨大潜力。这些方法主要利用提示学习来评估查询与文档之间的相关性，生成潜在文档的排名列表。尽管它们前景广阔，但与LLMs相关的巨大成本对其在商业搜索系统中的直接实施构成了重大挑战。为了克服这一障碍并充分利用LLMs在文本排序方面的能力，我们探索了将LLMs的排序专长转移到类似BERT的更紧凑模型的技术，使用排名损失以实现资源消耗较低的模型的部署。具体来说，我们通过持续预训练增强LLMs的训练，将查询作为输入，点击的标题和摘要作为输出。然后，我们使用排名损失对LLM进行监督微调，将最后一个标记作为整个句子的代表。鉴于自回归语言模型的固有特性，只有最后一个标记能够包含所有先前的标记。此外，我们引入了一种混合点对点和边距均方误差损失，将LLMs的排序知识转移到像BERT这样的小型模型中。这种方法为资源限制严格的环境提供了一个可行的解决方案。离线和在线评估都证实了我们方法的有效性，我们的模型已于2024年2月成功集成到一个商业网络搜索引擎中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决大型语言模型（LLMs）在商业搜索系统中应用的成本问题。尽管LLMs作为零样本相关性排序器具有巨大潜力，但其高昂的计算成本限制了直接部署。这是一个实际应用中的重要问题，旨在通过技术手段降低资源消耗，实现高效利用。
关键思路

论文的关键思路是通过知识转移技术，将LLMs的排名能力迁移到更紧凑的模型（如BERT）中，以减少资源消耗。具体方法包括：1) 继续预训练（Continued Pre-Training），利用查询、点击的标题和摘要作为输入输出；2) 使用排名损失进行监督微调，特别关注最后一个标记；3) 引入混合点对点和边缘均方误差（MSE）损失，以有效迁移排名知识。这些方法在资源受限环境中提供了可行的解决方案。
其它亮点

论文的其他亮点包括：1) 实验设计全面，包括离线和在线评估，验证了方法的有效性；2) 模型已在2024年2月成功集成到商业搜索引擎中，展示了实际应用价值；3) 提供了详细的实验设置和数据集信息，有助于复现和进一步研究；4) 开源代码和模型，便于学术界和工业界的进一步探索和改进。
相关研究

最近在这个领域中，还有一些相关的研究，例如：1) 'Knowledge Distillation for Text Ranking'，探讨了如何将大型模型的知识转移到小型模型中；2) 'Efficient Fine-Tuning of Pre-trained Models for Ranking Tasks'，研究了预训练模型在排名任务中的高效微调方法；3) 'Adapting Large Language Models for Information Retrieval'，讨论了LLMs在信息检索中的适应性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问