目前,人们普遍认为前沿大语言模型(LLM)和LLM增强系统有潜力在各个学科中快速加速科学发现。今天,有许多基准可以衡量LLM对教科书式科学问题的知识和推理能力,但几乎没有基准旨在评估语言模型在科学研究所需的实际任务上的表现,例如文献检索、协议规划和数据分析。为了建立这样的基准,我们引入了语言代理生物学基准(LAB-Bench),这是一个广泛的数据集,包含超过2400个多项选择题,用于评估AI系统在一系列实际生物学研究能力上的表现,包括文献回忆和推理、图表解释、数据库的访问和导航,以及DNA和蛋白质序列的理解和操纵。与以往的科学基准不同,重要的是,我们期望一个能够在更困难的LAB-Bench任务上实现一致高分的AI系统将成为研究人员在文献检索和分子克隆等领域的有用助手。作为对前沿语言模型新兴科学任务能力的初步评估,我们对几个模型在我们的基准测试中的表现进行了评估,并将结果与人类专家生物学研究人员进行了比较。我们将继续更新和扩展LAB-Bench,并期望它成为未来自动化研究系统开发的有用工具。LAB-Bench的公共子集可在以下网址使用:https://huggingface.co/datasets/futurehouse/lab-bench。
提问交流