Reasoning-enhanced Query Understanding through Decomposition and Interpretation

2025年09月08日
  • 简介
    准确推断用户意图对于提升现代搜索引擎的文档检索效果至关重要。尽管大型语言模型(LLMs)在这一领域取得了显著进展,但其有效性主要是在短文本、关键词式的查询场景下得到验证。随着人工智能驱动的搜索不断发展,带有复杂意图的长文本查询日益增多,但在基于大型语言模型的查询理解(QU)任务中,这类查询仍未得到充分研究。为填补这一空白,我们提出了ReDI——一种通过分解与解释增强查询理解的推理增强型方法。ReDI充分利用LLM的推理与理解能力,构建了一个三阶段的处理流程:(i)将复杂查询拆解为具体的子查询,以准确捕捉用户意图;(ii)为每个子查询添加详细的语义解释,以提升查询与文档之间的匹配效果;(iii)对每个子查询独立进行文档检索,并采用融合策略整合结果以实现最终排序。我们从一个主流搜索引擎中收集了一个大规模的真实复杂查询数据集,并将教师模型的查询理解能力提炼至更小模型中,以适用于实际场景。在BRIGHT和BEIR数据集上的实验表明,ReDI在稀疏检索和密集检索两种范式下均持续优于多个强大的基线模型,验证了其有效性。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决现代搜索引擎中长文本、复杂意图查询在基于大型语言模型的查询理解(LLM-based Query Understanding)中的不足问题。这类复杂查询的处理在当前研究中较少被关注,是一个相对较新的研究问题。
  • 关键思路
    提出ReDI方法,通过三阶段流程:分解复杂查询为子查询、对每个子查询进行语义解释、分别检索并融合结果,从而提升文档检索效果。其新意在于结合LLM的推理能力进行查询分解与理解,而非直接使用原始查询进行检索。
  • 其它亮点
    1. 提出ReDI框架,结合LLM的推理与语义理解能力处理复杂查询 2. 构建了一个大规模真实场景下的复杂查询数据集 3. 通过知识蒸馏将大模型能力迁移到小模型,提升实际部署可行性 4. 在BRIGHT和BEIR数据集上验证了方法在稀疏与稠密检索范式下的有效性 5. 采用子查询检索+结果融合策略,提升最终文档排序质量
  • 相关研究
    1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2. DPR: Dense Passage Retrieval 3. OR-QA: Reasoning over Hierarchical Multi-granular Evidence for Open-domain Question Answering 4. FiD: Fusion-in-Decoder Architecture for Joint Sequence Generation 5. SPAR: Sparse-Powered Dense Retrieval for Open-Domain Question Answering
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问