Autoregressive Ranking: Bridging the Gap Between Dual and Cross Encoders

向作者提问

NEW

简介

大语言模型（LLMs）的成功推动了检索与排序范式向生成式方法的转变，旨在取代传统的双编码器（DEs）和交叉编码器（CEs）。其中一种主流范式是逐点自回归排序（ARR），即利用大语言模型逐词生成文档标识符（docID），从而通过束搜索（beam search）实现排序。ARR既有望在表达能力上超越双编码器，又能规避交叉编码器高昂的计算开销。然而，这一表达能力优势迄今缺乏严谨的理论基础；此外，标准的下一词预测损失函数对排序任务本身不敏感（rank-agnostic），因而并不适用于针对排序任务对大语言模型进行微调。本文首先从理论上证明：ARR 的表达能力严格优于双编码器。具体而言，双编码器若要实现任意排序，其嵌入维度必须随语料库规模线性增长；而 ARR 仅需一个固定大小的隐层维度即可完成同等任务。接着，我们提出了一种面向排序任务的大语言模型微调通用损失函数——SToICaL（Simple Token-Item Calibrated Loss，简易词项-项目校准损失）。该损失函数通过项目级重加权（item-level reweighting）与前缀树边缘化（prefix-tree marginalization），将概率质量按各 docID 对应的真实相关性程度，有针对性地分配至所有合法的 docID 词汇上。我们在 WordNet 和 ESCI 数据集上的实验表明，所提损失函数能有效抑制无效 docID 的生成，并在超越“首项检索”（top-1 retrieval）的更广泛排序指标上显著提升模型性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决生成式检索中Autoregressive Ranking（ARR）缺乏理论表达能力证明和rank-agnostic训练目标不匹配 ranking 任务本质的问题；验证ARR是否在理论上确实比Dual Encoders更具表达力，并提出适配排序目标的新型训练损失。这是一个新问题——此前尚无对ARR表达能力的严格理论刻画，也无兼顾docID语法有效性与相关性排序的token-level校准损失。
关键思路

1) 首次给出ARR与DE表达能力的严格比较：证明ARR仅需常数隐藏维即可实现任意文档排列，而DE需嵌入维线性增长于语料库规模；2) 提出SToICaL损失——通过item-level relevance reweighting + prefix-tree marginalization，将ground-truth relevance显式注入每个token生成的条件概率分布，使LLM在生成docID时天然偏好高相关性文档。相比标准next-token预测，SToICaL是首个为pointwise autoregressive ranking量身设计的、可微且结构感知的rank-aware损失。
其它亮点

实验在WordNet（层次化语义检索）和ESCI（电商场景细粒度相关性判断）两个具有挑战性的benchmark上验证：SToICaL显著抑制无效docID生成（如格式错误、不存在ID），提升NDCG@10和MAP远超基线，尤其改善top-k（k>1）排序质量；论文未提代码开源，但方法完全基于标准Transformer解码器+轻量后处理，易于复现；值得深入的方向包括：将SToICaL扩展至多文档联合生成（listwise）、与检索增强（RAG）结合、以及理论推广至非固定长度docID编码方案。
相关研究

Recent related works include: 'RankGLM: Learning to Rank with Large Language Models' (SIGIR'24), 'Autoregressive Document Retrieval' (ICLR'23), 'Rethinking Retrieval with Generative Models' (ACL'23), 'CEDR: Contextualized Embeddings for Document Ranking' (SIGIR'19), and 'ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction' (SIGIR'21).

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问