Unbiased Learning to Rank Meets Reality: Lessons from Baidu's Large-Scale Search Dataset

简介

无偏学习排序（ULTR）是一种从用户点击中学习的成熟框架，但这些点击数据往往会被收集数据的排序器所偏倚。虽然在理论上得到了证明并在模拟测试中得到了广泛测试，但ULTR技术缺乏实证验证，特别是在现代搜索引擎上。百度搜索引擎发布的WSDM Cup 2023数据集为评估主要ULTR技术的实际表现提供了难得的机会。尽管在WSDM Cup 2023和随后的NTCIR ULTRE-2任务中提交了多个实验结果，但仍不清楚观察到的改进是否来自于应用ULTR或其他学习技术。作者重新审视并扩展了可用实验，发现无偏学习排序技术并未带来明显的性能改进，特别是与排名损失和查询-文档特征的选择所带来的明显差异相比。作者的实验表明，ULTR可以稳定地提高点击预测，但这些点击预测的增益并不能转化为专家相关性注释的排名性能的提高，这意味着结论在这个基准测试中强烈依赖于如何衡量成功。
图表
解决问题

评估现代搜索引擎中无偏学习排序技术的实际效果，以及与其他学习技术的比较
关键思路

无偏学习排序技术并没有带来明显的性能提升，与排名损失和查询文档特征的选择相比，其差异更小
其它亮点

本文通过评估百度搜索引擎数据集，发现无偏学习排序技术在点击预测方面有明显提升，但并未在专家相关性注释的排名性能上表现出显著差异，这表明结论在如何衡量成功方面存在很大差异
相关研究

最近的相关研究包括WSDM Cup 2023和NTCIR ULTRE-2任务，但是这些研究并未明确表明无偏学习排序技术的优势

Unbiased Learning to Rank Meets Reality: Lessons from Baidu's Large-Scale Search Dataset

评论