DRUGONE

大型语言模型(LLMs)正被快速引入科学实验室,用于实验设计、操作指导和安全咨询。然而,这类模型在高风险实验环境中的可靠性尚未得到系统验证。研究人员构建了 LabSafety Bench,这是一个面向实验室安全风险的综合基准测试框架,覆盖危害识别、风险评估和后果推断等关键能力。该基准包含 765 道多项选择题和 404 个贴近真实实验室情境的场景问题,共计 3,000 余项评测任务。对 19 种主流语言模型和视觉语言模型的系统评测表明,当前模型在实验室安全任务中整体表现有限,尤其在复杂场景推理中存在明显短板,凸显了在实验室环境中部署大模型前进行专业安全评测的迫切性。

人工智能在科研领域的应用不断拓展,从文献分析到实验流程规划,语言模型正在深度介入科学研究过程。然而,在实验室这一高风险环境中,模型输出的“看似合理但实际错误”的内容可能导致严重后果。调查显示,已有相当比例的研究人员在实验设计和操作细节中直接参考语言模型建议,并对其结果抱有中到高水平的信任。


实验室事故在现实中并不罕见,而模型幻觉、危险因素遗漏和风险优先级判断错误,可能进一步放大安全隐患。尽管已有大量工作评估语言模型的学术能力,但针对实验室安全这一特殊、高风险应用场景,系统化评测框架仍然缺失。


方法

研究人员构建了 LabSafety Bench,用于系统评估语言模型在实验室安全相关任务中的表现。该基准包含三类问题:文本型多项选择题、结合图像的多项选择题,以及基于真实实验场景的开放式问题。问题内容涵盖化学、生物和物理实验室中的常见风险,答案由领域专家制定并交叉验证。评测对象包括多种商业模型、开源语言模型以及视觉语言模型,从而全面比较不同模型在安全知识、风险识别和情境推理方面的能力。

LabSafety Bench 的方法学整体框架。


结果

LabSafety Bench 的设计与覆盖范围

LabSafety Bench 覆盖了实验室安全的核心维度,包括危险源识别、风险严重性判断以及潜在后果分析。基准中的场景问题高度贴近真实实验室操作,能够有效测试模型在非结构化环境下的安全推理能力。

图 1|LabSafety Bench 的构建流程与示例任务。


多项选择题中的安全知识表现

在文本和图像多项选择题中,商业闭源模型整体优于开源模型,但所有模型在复杂安全知识点上的准确率均存在明显上限。即使是表现最好的模型,在部分安全概念上仍频繁出现遗漏或错误判断。

图 2|不同模型在实验室安全多项选择题中的表现比较。


真实场景下的危险识别能力

在基于真实实验室情境的危险识别任务中,所有模型的表现均显著下降。没有任何模型在危险识别准确率上超过 70%,且常见错误包括忽视关键危险源或错误聚焦次要风险。

图 3|模型在实验室真实场景危险识别任务中的准确率。


风险评估与后果推断的局限性

在需要综合判断风险严重性和潜在后果的任务中,模型普遍表现出推理不稳定的问题。部分模型在回答中生成逻辑完整但事实错误的解释,增加了用户误判安全性的风险。

图 4|模型在风险评估与后果推断任务中的性能分析。


不同模型与训练策略的对比分析

监督微调在一定程度上提升了小模型在安全任务中的表现,但检索增强生成和专用代理系统在该场景下并未带来稳定收益,部分情况下甚至降低了模型表现。

图 5|不同模型类型和增强策略在安全评测中的对比结果。


实验室安全应用中的失败模式总结

研究人员系统总结了语言模型在实验室安全场景中的典型失败模式,包括危险遗漏、风险优先级错误、幻觉信息生成以及对安全规范的误解。这些问题在多个模型中反复出现,显示其具有系统性。


讨论

该研究首次从系统基准评测的角度,全面揭示了当前语言模型在实验室安全风险识别与决策方面的能力边界。结果表明,即使是性能领先的模型,也难以在复杂、动态的实验室场景中提供可靠的安全保障。


研究人员指出,在实验室环境中使用语言模型必须始终保持人工监督,并建议在部署前采用专门针对安全场景的评测框架进行验证。未来工作需要结合领域知识、情境感知和人机协同机制,才能真正推动人工智能在实验室中的安全应用。

整理 | DrugOne团队


参考资料


Zhou, Y., Yang, J., Huang, Y. et al. Benchmarking large language models on safety risks in scientific laboratories. Nat Mach Intell (2026). 

https://doi.org/10.1038/s42256-025-01152-1

内容为【DrugOne】公众号原创转载请注明来源


内容中包含的图片若涉及版权问题,请及时与我们联系删除