Autoregressive Ranking: Bridging the Gap Between Dual and Cross Encoders

2026年01月09日
  • 简介
    大语言模型(LLMs)的成功推动了检索与排序范式向生成式方法的转变,旨在取代传统的双编码器(DEs)和交叉编码器(CEs)。其中一种主流范式是逐点自回归排序(ARR),即利用大语言模型逐词生成文档标识符(docID),从而通过束搜索(beam search)实现排序。ARR既有望在表达能力上超越双编码器,又能规避交叉编码器高昂的计算开销。然而,这一表达能力优势迄今缺乏严谨的理论基础;此外,标准的下一词预测损失函数对排序任务本身不敏感(rank-agnostic),因而并不适用于针对排序任务对大语言模型进行微调。 本文首先从理论上证明:ARR 的表达能力严格优于双编码器。具体而言,双编码器若要实现任意排序,其嵌入维度必须随语料库规模线性增长;而 ARR 仅需一个固定大小的隐层维度即可完成同等任务。接着,我们提出了一种面向排序任务的大语言模型微调通用损失函数——SToICaL(Simple Token-Item Calibrated Loss,简易词项-项目校准损失)。该损失函数通过项目级重加权(item-level reweighting)与前缀树边缘化(prefix-tree marginalization),将概率质量按各 docID 对应的真实相关性程度,有针对性地分配至所有合法的 docID 词汇上。我们在 WordNet 和 ESCI 数据集上的实验表明,所提损失函数能有效抑制无效 docID 的生成,并在超越“首项检索”(top-1 retrieval)的更广泛排序指标上显著提升模型性能。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决生成式检索中Autoregressive Ranking(ARR)缺乏理论表达能力证明和rank-agnostic训练目标不匹配 ranking 任务本质的问题;验证ARR是否在理论上确实比Dual Encoders更具表达力,并提出适配排序目标的新型训练损失。这是一个新问题——此前尚无对ARR表达能力的严格理论刻画,也无兼顾docID语法有效性与相关性排序的token-level校准损失。
  • 关键思路
    1) 首次给出ARR与DE表达能力的严格比较:证明ARR仅需常数隐藏维即可实现任意文档排列,而DE需嵌入维线性增长于语料库规模;2) 提出SToICaL损失——通过item-level relevance reweighting + prefix-tree marginalization,将ground-truth relevance显式注入每个token生成的条件概率分布,使LLM在生成docID时天然偏好高相关性文档。相比标准next-token预测,SToICaL是首个为pointwise autoregressive ranking量身设计的、可微且结构感知的rank-aware损失。
  • 其它亮点
    实验在WordNet(层次化语义检索)和ESCI(电商场景细粒度相关性判断)两个具有挑战性的benchmark上验证:SToICaL显著抑制无效docID生成(如格式错误、不存在ID),提升NDCG@10和MAP远超基线,尤其改善top-k(k>1)排序质量;论文未提代码开源,但方法完全基于标准Transformer解码器+轻量后处理,易于复现;值得深入的方向包括:将SToICaL扩展至多文档联合生成(listwise)、与检索增强(RAG)结合、以及理论推广至非固定长度docID编码方案。
  • 相关研究
    Recent related works include: 'RankGLM: Learning to Rank with Large Language Models' (SIGIR'24), 'Autoregressive Document Retrieval' (ICLR'23), 'Rethinking Retrieval with Generative Models' (ACL'23), 'CEDR: Contextualized Embeddings for Document Ranking' (SIGIR'19), and 'ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction' (SIGIR'21).
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问