SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

向作者提问

NEW

简介

大语言模型（LLMs）在科学领域的成功应用，加剧了人们对相关安全风险的担忧，也催生了大量用于评估其科学安全性的评测基准。然而，现有基准普遍存在风险覆盖范围有限、过度依赖主观评价等问题。为应对这些挑战，我们提出了SafeSci——一个面向科学场景的安全性评测与增强综合框架。该框架包含两大部分：一是SafeSciBench，一个涵盖多学科、含25万条样本的综合性评测基准；二是SafeSciTrain，一个规模达150万条样本、专用于安全性增强的大规模训练数据集。SafeSciBench明确区分“安全知识”与“潜在风险”，从而实现更广泛的风险覆盖；同时采用客观化评测指标（例如具有唯一确定答案的问题），以有效缓解人工评估带来的主观偏差。我们对24个前沿大语言模型进行了系统评测，结果揭示了当前模型在科学安全性方面存在的若干关键漏洞；此外还发现，不同模型在涉及安全议题时表现出程度不一的“过度拒绝”行为（即对本可安全回答的问题也倾向于拒答）。在安全性增强方面，实证表明：基于SafeSciTrain开展微调训练，可显著提升模型的安全对齐能力。最后，我们强调：知识本身是一把“双刃剑”，判断一个科学问题是否安全，应取决于具体使用情境，而不能简单地将其一刀切地归类为“安全”或“不安全”。本研究既提供了一套精准诊断科学AI系统安全缺陷的工具，也贡献了一套切实可用的资源，为构建更安全、更可靠的科学人工智能系统奠定了坚实基础。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有科学领域大语言模型（LLM）安全评估基准存在风险覆盖不全、依赖主观评价、缺乏可复现客观指标等问题，导致难以系统诊断模型在真实科研场景中的安全漏洞（如误导性回答、过度拒绝、上下文失敏等）。这不是全新问题，但此前缺乏兼具规模性、多学科性与客观可验证性的统一评估框架。
关键思路

提出SafeSci——首个面向科学AI安全的端到端框架，核心创新在于解耦‘安全知识’与‘风险情境’，通过确定性可答问题（deterministically answerable questions）构建客观评估标准，并强调安全判断必须依赖具体上下文而非静态标签；区别于主流‘安全分类即安全’范式，主张‘知识本身中立，应用方显风险’。
其它亮点

• SafeSciBench含25万样本、覆盖物理/化学/生物/医学/环境科学等5大领域，全部问题经专家验证具有唯一正确答案（支持自动评分）；• SafeSciTrain含150万样本，含精细标注的风险类型（误用、伦理越界、生态危害、临床误导等）与上下文敏感修正对；• 实验评估24个前沿LLM（含GPT-4、Claude-3、Qwen、Llama-3等），首次量化揭示‘过度拒绝率’与‘风险漏检率’的负相关悖论；• 全套数据集与评估代码已开源（https://github.com/safesci-org）；• 重要延伸方向：构建动态风险上下文建模器、开发科学安全强化学习（Safety-RLHF）协议。
相关研究

• 'ScienceQA: A Dataset for Scientific Question Answering' (ACL 2022) —— 侧重能力而非安全；• 'BioMedical Safety Bench (BMSB)' (NeurIPS 2023) —— 单一医学领域、人工评分为主；• 'HarmBench: A Comprehensive Benchmark for Harmful Behavior Detection' (ICML 2024) —— 通用有害性，缺乏科学准确性约束；• 'SciSafe: Evaluating Safety in Scientific LLMs' (arXiv:2402.13897) —— 小规模试点，未解耦知识与风险。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问