- 简介目前,人们普遍认为前沿的大型语言模型(LLM)和LLM增强系统具有快速加速跨学科科学发现的潜力。今天,许多基准存在于测量LLM在类似教科书的科学问题上的知识和推理能力方面,但几乎没有基准被设计用于评估语言模型在科学研究所需的实际任务上的表现,如文献搜索、协议规划和数据分析。为了建立这样的基准,我们引入了语言代理生物学基准(LAB-Bench),这是一个广泛的数据集,包含超过2400个多项选择题,用于评估人工智能系统在各种实际生物学研究能力方面的表现,包括文献回忆和推理、图像解释、数据库访问和导航、以及DNA和蛋白质序列的理解和操作。重要的是,与以前的科学基准相比,我们期望一个能够在更困难的LAB-Bench任务上实现一致高分的人工智能系统将成为研究人员在文献搜索和分子克隆等领域的有用助手。作为对前沿语言模型新兴科学任务能力的初步评估,我们对比了几个模型在我们的基准上的表现,并报告了与人类专家生物学研究人员的结果。我们将继续更新和扩展LAB-Bench,并期望它成为未来自动化研究系统开发的有用工具。LAB-Bench的公共子集可在以下网址使用:https://huggingface.co/datasets/futurehouse/lab-bench。
-
- 图表
- 解决问题这篇论文旨在解决一个问题:如何评估自然语言处理模型在实际科学研究中的性能,例如文献搜索、协议规划和数据分析等任务?同时,作者还试图构建一个广泛的数据集,用于评估人工智能系统在实际生物学研究中的能力。
- 关键思路该论文提出了一个名为LAB-Bench的数据集,包含2400多个多项选择题,用于评估自然语言处理模型在生物学研究中的实际应用能力,包括文献回顾、图表解释、数据库访问和DNA和蛋白质序列的理解和操作。与以往的科学基准不同,作者认为,能够在LAB-Bench上表现出色的AI系统将成为生物学研究人员的有用助手。
- 其它亮点该论文的亮点包括:提出了一个新的数据集LAB-Bench,用于评估自然语言处理模型在实际生物学研究中的性能;通过实验评估了几种前沿自然语言处理模型在LAB-Bench上的表现,并与人类专家进行了比较;公开了LAB-Bench的一个子集,以供研究使用。
- 最近在这个领域中,还有一些相关研究,例如:《BioASQ:生物医学问答系统的挑战》、《BioNLP:生物医学自然语言处理的挑战和机遇》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流