GenSco: Can Question Decomposition based Passage Alignment improve Question Answering?

2024年07月14日
  • 简介
    本文研究了在大型语言模型(LLMs)中使用检索增强生成(RAG)进行问答(QA)的方法,其包括在提示中提供相关上下文以便LLM生成答案。在生成过程中,由于两个主要因素:提示中上下文不足或分散注意力,以及LLMs无法有效地推理事实,经常会出现不准确或幻觉的情况。本文探讨了通过精心选择的段落序列提供对齐的上下文是否能够提高LLM在多跳QA中的答案生成效果。我们引入了“GenSco”这一新颖的方法,根据多跳问题的预测分解来选择段落。该框架包括两个不同的LLMs:(i)生成器LLM,用于问题分解和最终答案生成;(ii)一个辅助开源的LLM,用作评分器,以在语义上指导生成器进行段落选择。生成器仅被调用一次用于答案生成,从而实现了一种具有成本效益和高效的方法。我们在三个广泛建立的多跳问答数据集上进行了评估:2WikiMultiHop,Adversarial HotPotQA和MuSiQue,并在MuSiQue和2WikiMultiHop上分别获得了15.1和5.9分的绝对增益。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决多跳问答中生成答案时存在的问题,如上下文不足或干扰、模型不能有效地推理等问题。同时,本文还试图探究是否通过提供经过精心选择的段落序列来提供对齐的上下文,可以帮助 LLM 更好地生成答案。
  • 关键思路
    本文提出了一种名为 GenSco 的方法,通过预测多跳问题的分解来选择段落,以更好地生成答案。该方法包含两个 LLM:(i) 生成器 LLM,用于问题分解和最终答案生成;(ii) 一个辅助的开源 LLM,用作得分器,以语义指导生成器进行段落选择。生成器仅被调用一次以生成答案,从而实现了一种成本效益高、高效的方法。
  • 其它亮点
    本文在三个广泛建立的多跳问答数据集上进行了评估:2WikiMultiHop、Adversarial HotPotQA 和 MuSiQue,与最佳基线相比,在 MuSiQue 和 2WikiMultiHop 中分别获得了 15.1 和 5.9 个百分点的准确匹配分数的绝对增益。
  • 相关研究
    在最近的相关研究中,也有一些关于多跳问答的研究,例如《Multi-hop Knowledge Base Question Answering with Hierarchical Graph Network》、《Multi-hop Reading Comprehension through Question Decomposition and Rescoring》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问