STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases

向作者提问

NEW

简介

回答现实世界用户查询，例如产品搜索，通常需要从半结构化知识库或涉及非结构化（例如产品的文本描述）和结构化（例如产品实体关系）信息混合的数据库中准确检索信息。然而，以往的研究大多将文本和关系检索任务作为独立的主题进行研究。为了填补这一空白，我们开发了STARK，一个大规模的半结构化检索基准，用于文本和关系知识库。我们设计了一个新颖的流程，用于合成自然而真实的用户查询，这些查询集成了各种关系信息和复杂的文本属性，以及它们的真实答案。此外，我们还进行了严格的人类评估，以验证我们基准的质量，该基准涵盖了各种实际应用，包括产品推荐、学术论文搜索和精准医学查询。我们的基准作为一个全面的测试平台，用于评估检索系统的性能，重点是由大型语言模型（LLM）驱动的检索方法。我们的实验表明，STARK数据集对当前的检索和LLM系统提出了重大挑战，表明需要构建更能够处理文本和关系方面的检索系统。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决从半结构化知识库或数据库中准确检索信息的问题，这些信息涉及非结构化（例如产品的文本描述）和结构化（例如产品的实体关系）信息的混合。同时，论文也试图填补以往研究将文本和关系检索任务作为分离主题的空白。
关键思路

论文提出了STARK，一个基于文本和关系知识库的大规模半结构化检索基准。通过设计一个新的流程，综合多样的关系信息和复杂的文本属性，我们可以合成自然且真实的用户查询和它们的答案。同时，我们进行了人类评估来验证我们基准的质量，涵盖了多种实际应用，包括产品推荐、学术论文搜索和精准医疗查询。我们的实验表明，STARK数据集对当前的检索和大型语言模型（LLMs）系统提出了重大挑战，表明需要构建更具能力的检索系统来处理文本和关系方面。
其它亮点

本论文设计了一个新的流程，综合多样的关系信息和复杂的文本属性，合成自然且真实的用户查询和它们的答案。我们进行了人类评估来验证我们基准的质量，涵盖了多种实际应用，包括产品推荐、学术论文搜索和精准医疗查询。我们的实验表明，STARK数据集对当前的检索和大型语言模型（LLMs）系统提出了重大挑战。
相关研究

在这个领域中，最近还有一些相关的研究，例如《Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering》和《A Large-Scale Empirical Study of Conversation Reply Prediction》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问