RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

向作者提问

NEW

简介

大型语言模型（LLMs）已经被应用于各个领域的许多研究问题。其中LLMs的一个应用是提供问答系统，以满足来自不同领域的用户的需求。LLM基于问答系统的有效性已经在流行和公共领域（如琐事和文学）中得到了认可的水平。然而，在传统上需要专业知识的利基领域中，它并没有经常得到确认。为此，我们构建了NEPAQuAD1.0基准来评估三个前沿LLMs - Claude Sonnet、Gemini和GPT-4 - 在回答由美国联邦政府机构根据国家环境法（NEPA）准备的环境影响声明中产生的问题时的性能。我们特别衡量LLMs理解NEPA文件中存在的法律、技术和合规相关信息的细微差别的能力，以及在不同的情境场景下合成长NEPA文件中存在的上下文信息以促进问答任务的能力。例如，我们通过提供没有任何上下文的问题来测试LLMs的内部先前NEPA知识，并评估LLMs如何综合长NEPA文件中存在的上下文信息来促进问答任务。我们比较了长上下文LLMs和RAG动力模型在处理不同类型的问题（如问题解决、分歧）方面的表现。我们的结果表明，无论前沿LLM的选择如何，RAG动力模型在回答准确性方面显著优于长上下文模型。我们的进一步分析表明，许多模型在回答封闭性问题方面表现更好，而不是分歧性和问题解决性问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估LLMs在处理环境影响声明中的问题回答方面的效果。
关键思路

使用NEPAQuAD1.0基准测试三种前沿的LLMs的性能，包括Claude Sonnet、Gemini和GPT-4，以回答源自美国联邦政府机构根据国家环境政策法（NEPA）编写的环境影响声明中的问题。研究特别衡量LLMs理解NEPA文档中存在的法律、技术和合规相关信息的能力，以及在不同情境下综合文本信息以促进问答任务的能力。
其它亮点

研究结果表明，无论选择哪种前沿LLM，RAG模型在回答准确性方面显著优于长上下文LLMs。许多模型在回答封闭问题方面表现更好，而在回答分歧和问题解决问题方面表现不佳。
相关研究

最近的相关研究包括使用LLMs进行问答的应用，以及使用NEPA文档进行自然语言处理任务的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问