Can't Remember Details in Long Documents? You Need Some R&R

简介

长文本大语言模型（LLMs）在长文档问答（QA）等任务中很有前途，但它们倾向于错过上下文文档中间的重要信息（arXiv:2307.03172v3）。在这里，我们介绍了$\textit{R＆R}$——两种新的基于提示的方法$\textit{reprompting}$和$\textit{in-context retrieval}$（ICR）的组合，以减轻文档QA中的这种影响。在$\textit{reprompting}$中，我们周期性地重复提示说明，以提醒LLM其原始任务。在ICR中，我们不是直接指示LLM回答问题，而是指示它检索与给定问题最相关的前$k$个段落编号，然后将其用作第二个QA提示中的简化上下文。我们使用GPT-4 Turbo和Claude-2.1在长达80k标记的文档上测试R＆R，并观察到平均QA准确性提高了16个点。我们的进一步分析表明，R＆R改善了长文档QA的性能，因为它减少了相关上下文和说明之间的距离。最后，我们表明，与短上下文分块方法相比，R＆R使得可以使用更大的块，这些块调用LLM更少且输出标记更少，同时最小化精度下降。
图表
解决问题

本论文旨在解决长文档中基于问题回答（QA）任务中，长上下文对于模型的干扰和信息丢失问题，提出了一种组合使用reprompting和in-context retrieval（ICR）的方法R&R
关键思路

R&R方法中，reprompting通过周期性地在上下文文档中重复提示信息，提醒LLM模型其原始任务；ICR则不是直接指示模型回答问题，而是指示模型检索与给定问题最相关的前k段文本段落，并将其作为第二个QA提示的简化上下文。使用GPT-4 Turbo和Claude-2.1在长达80k个标记的文档上测试R&R，平均QA准确性提高了16个百分点
其它亮点

本文的亮点在于提出了一种新的组合方法R&R，该方法能够显著提高长文档QA任务的准确性；实验设计合理，使用了GPT-4 Turbo和Claude-2.1模型，在长文档上进行了测试，并且提供了开源代码；与短文本块方法相比，R&R能够使用更大的文本块，减少LLM调用和输出标记的成本，同时最小化准确性下降。
相关研究

在这个领域中，最近的相关研究包括使用文本摘要技术来减少长文档对于QA任务的干扰（arXiv:2012.15765v1），以及使用多阶段QA方法来解决长文档QA任务（arXiv:2105.08821v2）

Can't Remember Details in Long Documents? You Need Some R&R

评论