The Effect of Document Summarization on LLM-Based Relevance Judgments

2025年12月05日
  • 简介
    相关性判断在信息检索(IR)系统评估中至关重要,但从人工标注者获取这些判断成本高昂且耗时。近年来,大语言模型(LLMs)被提出作为自动评估工具,在与人类标注的一致性方面展现出良好前景。以往大多数研究将文档视为固定单位,直接将其全部内容输入给LLM评估者。本文探讨了文本摘要如何影响基于LLM判断的可靠性,以及其对IR评估结果的下游影响。我们在多个TREC数据集上使用最先进的大语言模型,比较了基于完整文档的判断与基于不同长度的LLM生成摘要的判断。我们分析了这些判断与人类标注的一致性、对检索效果评估的影响,以及对IR系统排序稳定性的作用。研究发现,基于摘要的判断在系统排序稳定性方面可达到与基于完整文档判断相当的水平,但会因模型和数据集的不同而引入标签分布和偏好的系统性变化。这些结果表明,摘要化既为更高效的大规模IR评估提供了机遇,也是一项具有重要方法论意义的选择,深刻影响着自动判断的可靠性。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在信息检索(IR)系统评估中,依赖人工标注相关性判断成本高、耗时长的问题。当前使用大语言模型(LLMs)作为自动评估器的研究大多直接输入完整文档内容,忽略了文本长度对效率与判断可靠性的影响。本文探究文档摘要是否能在不牺牲评估质量的前提下替代全文,从而提升自动化评估的可扩展性。这是一个具有实际意义的新问题,聚焦于自动化评估中的输入表示效率。
  • 关键思路
    提出使用大语言模型生成的文档摘要代替原始全文,作为LLM自动相关性判断的输入,系统性地研究不同长度摘要对判断结果的影响。关键创新在于将‘文本压缩’引入LLM-based评估流程,揭示了摘要不仅可用于提效,还会引起标签分布的系统性偏移,而系统排序稳定性仍可保持,这一发现挑战了‘越长越好’的默认假设。
  • 其它亮点
    实验设计严谨,在多个TREC数据集上评测多种先进LLM,对比全文档与不同长度摘要输入下的表现;评估维度全面,涵盖与人类标签的一致性、对检索效果评估的准确性,以及对系统排名稳定性的影响;研究发现摘要能维持排名稳定性但引入模型和数据相关的偏差,提示需谨慎选择摘要策略;未提及开源代码,但其方法论为后续高效IR评估提供了新路径,值得深入探索更优的摘要生成与校准机制。
  • 相关研究
    1. Large Language Models as Zero-Shot Rankers for Information Retrieval 2. Are LLMs Reliable Judges? Evaluating the Faithfulness of LLM-based Evaluation in IR 3. Summarization for Efficient Document Processing in Neural IR 4. Automatic Evaluation of Information Retrieval Systems with Pretrained Transformers 5. On the Role of Context Length in Prompt-based Judgment with Large Language Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问