Semantic Search At LinkedIn

2026年02月07日
  • 简介
    基于大语言模型(LLM)的语义搜索能够依据语义而非关键词匹配实现信息检索,但要实现规模化部署,亟需在推理效率方面取得重大突破。本文介绍了领英(LinkedIn)面向“AI职位搜索”与“AI人才搜索”构建的LLM驱动语义搜索框架,该框架融合了LLM相关性判别器、基于嵌入(embedding)的检索模块,以及一个经多教师知识蒸馏训练而成的轻量级小语言模型(Small Language Model),从而协同优化搜索结果的相关性与用户参与度。此外,我们设计了一种以预填充(prefill)为核心的推理架构,并与模型剪枝、上下文压缩及文本-嵌入混合交互机制深度协同优化:在保持固定延迟约束的前提下,该方案使排序吞吐量提升逾75倍,同时NDCG指标仍接近教师模型水平;这使得本系统成为业内首批兼具高效率(与传统方法相当)与高质量的LLM驱动生产级排序系统之一,并在搜索质量与用户参与度方面均实现了显著提升。
  • 作者讲解
  • 图表
  • 解决问题
    在大规模生产环境中部署LLM-based语义搜索(如职位与人才搜索)面临核心矛盾:传统embedding检索缺乏细粒度语义判别力,而端到端LLM重排序又因高计算开销难以满足毫秒级延迟与高吞吐要求。论文直面‘如何让LLM真正落地于亿级用户、高QPS、低延迟的工业搜索排序系统’这一尚未被系统解决的工程-算法协同难题。
  • 关键思路
    提出‘蒸馏+架构协同优化’双轨范式:1)用多教师(多个强LLM)蒸馏出轻量Small Language Model(SLM)作为可部署的相关性判别器;2)首创prefill-oriented推理架构——深度耦合模型剪枝、上下文压缩与text-embedding混合交互(即用稠密向量预筛+SLM精排联合建模),使LLM级排序首次达到与传统双塔模型相当的吞吐效率(75x加速)且不损NDCG。
  • 其它亮点
    已在LinkedIn AI Job Search与AI People Search全量上线,服务数亿用户;实验基于真实生产流量日志与A/B测试,核心指标为NDCG@10与用户点击率(CTR)/申请转化率;未提开源代码,但明确报告了latency-SLO约束(<100ms P99)、吞吐提升75x及NDCG保持>98% teacher水平;值得深挖的方向包括:多教师知识对齐机制、动态上下文压缩策略泛化性、以及SLM在跨域搜索(如内容/商品)中的迁移能力。
  • 相关研究
    ColBERTv2: Effective and Efficient Retrieval via Lightweight Token-Level Embedding (SIGIR 2022); RankGPT: Retrieving Relevant Passages with LLMs as Rankers (ACL 2023); SPLADE v2: Sparse Lexical and Expansion Model for First Stage Retrieval (ECIR 2023); FLASH: Fast and Accurate Semantic Search with Learned Hashing (KDD 2023); Distilling Step-by-Step: Knowledge Distillation from Chain-of-Thought Reasoning (NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问