- 简介在企业搜索中,由于难以获取标注数据,大规模构建高质量数据集一直是一个核心难题。为解决这一问题,我们提出了一种高效的方法,用于微调小型语言模型(SLM),以实现准确的相关性标注,从而支持高吞吐量、面向特定领域的标注任务,其质量可媲美甚至优于当前最先进的大型语言模型(LLM)。为了克服企业领域内高质量且易获取数据集匮乏的问题,我们的方法利用合成数据生成技术:具体而言,我们使用一个大语言模型(LLM)从种子文档出发生成逼真的企业级查询,采用BM25算法检索难负样本,并借助教师LLM为这些样本分配相关性评分。随后,我们将生成的数据集蒸馏到一个小语言模型(SLM)中,得到一个紧凑的相关性标注器。我们在一个由训练有素的人工标注员标注的、包含923个企业查询-文档对的高质量基准测试集上评估了该方法,结果表明,经蒸馏得到的小型语言模型在判断结果上与人工标注的一致性达到甚至超过了教师LLM的水平。此外,我们微调后的标注器显著提升了处理吞吐量,效率提高达17倍,同时成本降低至原来的1/19。该方法为企业级检索应用提供了可扩展且成本效益高的相关性标注方案,支持在真实场景中快速进行离线评估与迭代优化。
-
- 图表
- 解决问题在企业搜索中,由于难以获取标注数据,构建高质量、可扩展的数据集是一个核心挑战。现有方法依赖于大型语言模型(LLMs)进行相关性标注,但其高成本和低吞吐量限制了在大规模企业场景中的应用。该问题在工业界尤为突出,但尚未被充分解决。
- 关键思路提出一种高效的合成数据生成与知识蒸馏框架:利用LLM从种子文档生成逼真的企业查询,通过BM25检索难负样本,并由教师LLM打标相关性得分,构建高质量合成数据集;随后将该数据集蒸馏到小型语言模型(SLM)中,得到一个紧凑、高速且低成本的相关性标注器。这一思路实现了用小模型逼近甚至超越大模型标注质量的目标,同时极大提升效率。
- 其它亮点在由923个企业查询-文档对组成的人工标注高质量基准上,蒸馏后的SLM与人类判断的一致性达到或超过教师LLM水平;相比教师LLM,推理吞吐量提升17倍,成本降低19倍;整个流程支持快速离线评估与迭代,适用于真实企业检索系统。实验设计严谨,结合了合成数据生成、检索增强负采样与模型蒸馏,具备工程落地潜力。论文未提及是否开源代码,但方法路径清晰,具备复现基础。
- 1. ‘Distilling Step-by-Step: Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes’ (2023) 2. ‘Small Language Models for Information Retrieval: A Survey on Distillation and Fine-tuning Approaches’ (2024) 3. ‘Synthetic Data Generation for Training Dense Retrievers in Low-resource Domains’ (2023) 4. ‘Fast and Affordable: Leveraging LLMs as Teachers to Build Efficient NLP Pipelines’ (2022) 5. ‘BM25 Meets Neural Retrieval: When to Use Exact Matching vs. Learned Representations’ (2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流