- 简介长文本大语言模型(LLMs)在长文档问答(QA)等任务中很有前途,但它们倾向于错过上下文文档中间的重要信息(arXiv:2307.03172v3)。在这里,我们介绍了$\textit{R&R}$——两种新的基于提示的方法$\textit{reprompting}$和$\textit{in-context retrieval}$(ICR)的组合,以减轻文档QA中的这种影响。在$\textit{reprompting}$中,我们周期性地重复提示说明,以提醒LLM其原始任务。在ICR中,我们不是直接指示LLM回答问题,而是指示它检索与给定问题最相关的前$k$个段落编号,然后将其用作第二个QA提示中的简化上下文。我们使用GPT-4 Turbo和Claude-2.1在长达80k标记的文档上测试R&R,并观察到平均QA准确性提高了16个点。我们的进一步分析表明,R&R改善了长文档QA的性能,因为它减少了相关上下文和说明之间的距离。最后,我们表明,与短上下文分块方法相比,R&R使得可以使用更大的块,这些块调用LLM更少且输出标记更少,同时最小化精度下降。
- 图表
- 解决问题本论文旨在解决长文档中基于问题回答(QA)任务中,长上下文对于模型的干扰和信息丢失问题,提出了一种组合使用reprompting和in-context retrieval(ICR)的方法R&R
- 关键思路R&R方法中,reprompting通过周期性地在上下文文档中重复提示信息,提醒LLM模型其原始任务;ICR则不是直接指示模型回答问题,而是指示模型检索与给定问题最相关的前k段文本段落,并将其作为第二个QA提示的简化上下文。使用GPT-4 Turbo和Claude-2.1在长达80k个标记的文档上测试R&R,平均QA准确性提高了16个百分点
- 其它亮点本文的亮点在于提出了一种新的组合方法R&R,该方法能够显著提高长文档QA任务的准确性;实验设计合理,使用了GPT-4 Turbo和Claude-2.1模型,在长文档上进行了测试,并且提供了开源代码;与短文本块方法相比,R&R能够使用更大的文本块,减少LLM调用和输出标记的成本,同时最小化准确性下降。
- 在这个领域中,最近的相关研究包括使用文本摘要技术来减少长文档对于QA任务的干扰(arXiv:2012.15765v1),以及使用多阶段QA方法来解决长文档QA任务(arXiv:2105.08821v2)
沙发等你来抢
去评论
评论
沙发等你来抢