NEW

Semantic Search At LinkedIn

Fedor Borisyuk ,

Sriram Vasudevan ,

Muchen Wu ,

Guoyao Li ,

Benjamin Le ,

Shaobo Zhang ,

Qianqi Kay Shen ,

Yuchin Juan ,

Kayhan Behdin ,

Liming Dong ,

Kaixu Yang ,

Shusen Jing ,

Ravi Pothamsetty ,

Rajat Arora ,

Sophie Yanying Sheng ,

Vitaly Abdrashitov ,

Yang Zhao ,

Lin Su ,

Xiaoqing Wang ,

Chujie Zheng ,

Sarang Metkar ,

Rupesh Gupta ,

Igor Lapchuk ,

David N. Racca ,

Madhumitha Mohan ,

Yanbo Li ,

Haojun Li ,

Saloni Gandhi ,

Xueying Lu ,

Chetan Bhole ,

Ali Hooshmand ,

Xin Yang ,

Raghavan Muthuregunathan ,

Jiajun Zhang ,

Mathew Teoh ,

Adam Coler ,

Abhinav Gupta ,

Xiaojing Ma ,

Sundara Raman Ramachandran ,

Morteza Ramezani ,

Yubo Wang ,

Lijuan Zhang ,

Richard Li ,

Jian Sheng ,

Chanh Nguyen ,

Yen-Chi Chen ,

Chuanrui Zhu ,

Claire Zhang ,

Jiahao Xu ,

Deepti Kulkarni ,

Qing Lan ,

Arvind Subramaniam ,

Ata Fatahibaarzi ,

Steven Shimizu ,

Yanning Chen ,

Zhipeng Wang ,

Ran He ,

Zhengze Zhou ,

Qingquan Song ,

Yun Dai ,

Caleb Johnson ,

Ping Liu ,

Shaghayegh Gharghabi ,

Gokulraj Mohanasundaram ,

Juan Bottaro ,

Santhosh Sachindran ,

Qi Guo ,

Yunxiang Ren ,

Chengming Jiang ,

Di Mo ,

Luke Simon ,

Jianqiang Shen ,

Jingwei Wu ,

Wenjing Zhang

热度 213

2026年02月07日

简介

基于大语言模型（LLM）的语义搜索能够依据语义而非关键词匹配实现信息检索，但要实现规模化部署，亟需在推理效率方面取得重大突破。本文介绍了领英（LinkedIn）面向“AI职位搜索”与“AI人才搜索”构建的LLM驱动语义搜索框架，该框架融合了LLM相关性判别器、基于嵌入（embedding）的检索模块，以及一个经多教师知识蒸馏训练而成的轻量级小语言模型（Small Language Model），从而协同优化搜索结果的相关性与用户参与度。此外，我们设计了一种以预填充（prefill）为核心的推理架构，并与模型剪枝、上下文压缩及文本-嵌入混合交互机制深度协同优化：在保持固定延迟约束的前提下，该方案使排序吞吐量提升逾75倍，同时NDCG指标仍接近教师模型水平；这使得本系统成为业内首批兼具高效率（与传统方法相当）与高质量的LLM驱动生产级排序系统之一，并在搜索质量与用户参与度方面均实现了显著提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在大规模生产环境中部署LLM-based语义搜索（如职位与人才搜索）面临核心矛盾：传统embedding检索缺乏细粒度语义判别力，而端到端LLM重排序又因高计算开销难以满足毫秒级延迟与高吞吐要求。论文直面‘如何让LLM真正落地于亿级用户、高QPS、低延迟的工业搜索排序系统’这一尚未被系统解决的工程-算法协同难题。
关键思路

提出‘蒸馏+架构协同优化’双轨范式：1）用多教师（多个强LLM）蒸馏出轻量Small Language Model（SLM）作为可部署的相关性判别器；2）首创prefill-oriented推理架构——深度耦合模型剪枝、上下文压缩与text-embedding混合交互（即用稠密向量预筛+SLM精排联合建模），使LLM级排序首次达到与传统双塔模型相当的吞吐效率（75x加速）且不损NDCG。
其它亮点

已在LinkedIn AI Job Search与AI People Search全量上线，服务数亿用户；实验基于真实生产流量日志与A/B测试，核心指标为NDCG@10与用户点击率（CTR）/申请转化率；未提开源代码，但明确报告了latency-SLO约束（<100ms P99）、吞吐提升75x及NDCG保持>98% teacher水平；值得深挖的方向包括：多教师知识对齐机制、动态上下文压缩策略泛化性、以及SLM在跨域搜索（如内容/商品）中的迁移能力。
相关研究

ColBERTv2: Effective and Efficient Retrieval via Lightweight Token-Level Embedding (SIGIR 2022); RankGPT: Retrieving Relevant Passages with LLMs as Rankers (ACL 2023); SPLADE v2: Sparse Lexical and Expansion Model for First Stage Retrieval (ECIR 2023); FLASH: Fast and Accurate Semantic Search with Learned Hashing (KDD 2023); Distilling Step-by-Step: Knowledge Distillation from Chain-of-Thought Reasoning (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问