RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

2024年07月10日
  • 简介
    大型语言模型(LLMs)已经被应用于各个领域的许多研究问题。其中LLMs的一个应用是提供问答系统,以满足来自不同领域的用户的需求。LLM基于问答系统的有效性已经在流行和公共领域(如琐事和文学)中得到了认可的水平。然而,在传统上需要专业知识的利基领域中,它并没有经常得到确认。为此,我们构建了NEPAQuAD1.0基准来评估三个前沿LLMs - Claude Sonnet、Gemini和GPT-4 - 在回答由美国联邦政府机构根据国家环境法(NEPA)准备的环境影响声明中产生的问题时的性能。我们特别衡量LLMs理解NEPA文件中存在的法律、技术和合规相关信息的细微差别的能力,以及在不同的情境场景下合成长NEPA文件中存在的上下文信息以促进问答任务的能力。例如,我们通过提供没有任何上下文的问题来测试LLMs的内部先前NEPA知识,并评估LLMs如何综合长NEPA文件中存在的上下文信息来促进问答任务。我们比较了长上下文LLMs和RAG动力模型在处理不同类型的问题(如问题解决、分歧)方面的表现。我们的结果表明,无论前沿LLM的选择如何,RAG动力模型在回答准确性方面显著优于长上下文模型。我们的进一步分析表明,许多模型在回答封闭性问题方面表现更好,而不是分歧性和问题解决性问题。
  • 作者讲解
  • 图表
  • 解决问题
    评估LLMs在处理环境影响声明中的问题回答方面的效果。
  • 关键思路
    使用NEPAQuAD1.0基准测试三种前沿的LLMs的性能,包括Claude Sonnet、Gemini和GPT-4,以回答源自美国联邦政府机构根据国家环境政策法(NEPA)编写的环境影响声明中的问题。研究特别衡量LLMs理解NEPA文档中存在的法律、技术和合规相关信息的能力,以及在不同情境下综合文本信息以促进问答任务的能力。
  • 其它亮点
    研究结果表明,无论选择哪种前沿LLM,RAG模型在回答准确性方面显著优于长上下文LLMs。许多模型在回答封闭问题方面表现更好,而在回答分歧和问题解决问题方面表现不佳。
  • 相关研究
    最近的相关研究包括使用LLMs进行问答的应用,以及使用NEPA文档进行自然语言处理任务的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问