Drilling Down into the Discourse Structure with LLMs for Long Document Question Answering

简介

我们研究了长文档问答中的证据检索任务，其涉及在文档中定位相关段落以回答问题。我们旨在评估大型语言模型在零样本长文档证据检索任务中的适用性，这是由于它们在各种自然语言处理任务中的卓越性能。然而，目前大型语言模型只能处理有限的上下文长度作为输入，因此提供文档块作为输入可能会忽略全局上下文，同时错过捕捉分段之间的依赖关系。此外，直接提供大量输入可能会产生显着的计算成本，特别是在处理整个文档时（并可能在企业API（如OpenAI的GPT变体）中产生货币性开销）。为了解决这些挑战，我们提出了一套技术，利用文档中常见的话语结构。通过利用这种结构，我们创建了文档的简化表示，使得更全面地理解和分析不同部分之间的关系成为可能。我们保留了最佳零样本方法的$99.6\%$的性能，同时仅处理最佳方法在信息检索证据检索设置中使用的总标记数量的$26\%$。我们还展示了如何将我们的方法与“自问”推理代理相结合，以实现复杂的多跳问题回答中的最佳零样本性能，仅比使用金标准证据的零样本性能短约$4\%$。
图表
解决问题

本篇论文旨在解决长文档问答中的证据检索问题，提出了一种利用文档中的话语结构来简化文档表示的方法，以提高证据检索的效率和准确性。
关键思路

论文提出了一种利用文档中的话语结构来简化文档表示的方法，以提高证据检索的效率和准确性。相比当前领域的研究，该方法的新意在于能够更全面地理解和分析不同部分之间的关系。
其它亮点

论文的方法在信息检索证据检索设置中仅使用了最佳零-shot方法所使用的总令牌数量的26％，同时仍保留了99.6％的最佳零-shot方法的性能。此外，论文还展示了如何将其方法与自问推理代理相结合，以实现复杂的多跳问答，并取得了接近最佳零-shot性能的效果。
相关研究

在这个领域中，最近的相关研究包括：《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Longformer: The Long-Document Transformer》、《Reinforced Mnemonic Reader for Machine Reading Comprehension》等。

Drilling Down into the Discourse Structure with LLMs for Long Document Question Answering

评论