BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science

2024年06月29日
  • 简介
    人们越来越关注追求生物医学科学的人工智能,也就是AI科学家,其中一个常见的方法是建立一个由大型语言模型(LLMs)驱动的副驾驶代理。然而,为了评估这样的系统,人们要么依靠直接向LLM提问回答,要么以生物医学实验的方式进行。如何从AI科学家的角度精确地评估生物医学代理仍然是一个较少探索的领域。为此,我们从科学家最重要的能力之一——理解文献中获取灵感,并引入BioKGBench。与传统的评估基准只侧重于事实问答不同,我们首先将“理解文献”分解为两个基本能力:i)通过进行科学主张验证来“理解”研究论文中的非结构化文本,以及ii)与结构化知识图谱问答(KGQA)交互作为“文献”基础。然后,我们使用KGQA和基于领域的检索增强生成(RAG)构建了一个新的代理任务,称为KGCheck,以识别现有大规模知识图谱数据库的事实错误。我们为两个基本任务收集了超过两千条数据,并为代理任务收集了225条高质量注释数据。令人惊讶的是,我们发现最先进的代理,无论是日常情况还是生物医学代理,在我们的基准测试中都表现不佳或失败。然后,我们引入了一个简单而有效的基准线,称为BKGAgent。在广泛使用的知识图谱上,我们发现超过90个事实错误,为代理提供了发现的场景,并展示了我们方法的有效性。代码和数据可在https://github.com/westlake-autolab/BioKGBench上获得。
  • 图表
  • 解决问题
    本论文旨在从AI科学家的角度精确地评估生物医学代理人的表现,并提出了一个新的基准测试BioKGBench。该基准测试关注于代理人的理解文献和与结构化知识图谱问答的交互能力,并引入了一个新的任务KGCheck,用于检测现有大规模知识图谱数据库的事实错误。
  • 关键思路
    BioKGBench将“理解文献”分解为两个原子能力:i)通过执行科学主张验证来“理解”研究论文中的非结构化文本,以及ii)通过结构化知识图谱问答(KGQA)与“文献”进行接地。KGCheck任务利用KGQA和基于检索的生成(RAG)来识别现有大规模知识图谱数据库中的事实错误。
  • 其它亮点
    该论文收集了2000多个数据用于两个原子任务和225个高质量注释数据用于代理人任务。作者发现,最先进的代理人在他们的基准测试中表现不佳或失败。作者还引入了一个简单而有效的基线模型BKGAgent,并在广泛使用的知识图上发现了90多个事实错误,这提供了代理人进行发现和展示其有效性的场景。作者还公开了代码和数据。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:1)利用大规模语言模型进行生物医学问答;2)使用知识图谱进行生物医学问题回答;3)利用自然语言处理技术进行生物医学文本挖掘。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论