SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

2026年03月02日
  • 简介
    大语言模型(LLMs)在科学领域的成功应用,加剧了人们对相关安全风险的担忧,也催生了大量用于评估其科学安全性的评测基准。然而,现有基准普遍存在风险覆盖范围有限、过度依赖主观评价等问题。为应对这些挑战,我们提出了SafeSci——一个面向科学场景的安全性评测与增强综合框架。该框架包含两大部分:一是SafeSciBench,一个涵盖多学科、含25万条样本的综合性评测基准;二是SafeSciTrain,一个规模达150万条样本、专用于安全性增强的大规模训练数据集。SafeSciBench明确区分“安全知识”与“潜在风险”,从而实现更广泛的风险覆盖;同时采用客观化评测指标(例如具有唯一确定答案的问题),以有效缓解人工评估带来的主观偏差。我们对24个前沿大语言模型进行了系统评测,结果揭示了当前模型在科学安全性方面存在的若干关键漏洞;此外还发现,不同模型在涉及安全议题时表现出程度不一的“过度拒绝”行为(即对本可安全回答的问题也倾向于拒答)。在安全性增强方面,实证表明:基于SafeSciTrain开展微调训练,可显著提升模型的安全对齐能力。最后,我们强调:知识本身是一把“双刃剑”,判断一个科学问题是否安全,应取决于具体使用情境,而不能简单地将其一刀切地归类为“安全”或“不安全”。本研究既提供了一套精准诊断科学AI系统安全缺陷的工具,也贡献了一套切实可用的资源,为构建更安全、更可靠的科学人工智能系统奠定了坚实基础。
  • 作者讲解
  • 图表
  • 解决问题
    现有科学领域大语言模型(LLM)安全评估基准存在风险覆盖不全、依赖主观评价、缺乏可复现客观指标等问题,导致难以系统诊断模型在真实科研场景中的安全漏洞(如误导性回答、过度拒绝、上下文失敏等)。这不是全新问题,但此前缺乏兼具规模性、多学科性与客观可验证性的统一评估框架。
  • 关键思路
    提出SafeSci——首个面向科学AI安全的端到端框架,核心创新在于解耦‘安全知识’与‘风险情境’,通过确定性可答问题(deterministically answerable questions)构建客观评估标准,并强调安全判断必须依赖具体上下文而非静态标签;区别于主流‘安全分类即安全’范式,主张‘知识本身中立,应用方显风险’。
  • 其它亮点
    • SafeSciBench含25万样本、覆盖物理/化学/生物/医学/环境科学等5大领域,全部问题经专家验证具有唯一正确答案(支持自动评分);• SafeSciTrain含150万样本,含精细标注的风险类型(误用、伦理越界、生态危害、临床误导等)与上下文敏感修正对;• 实验评估24个前沿LLM(含GPT-4、Claude-3、Qwen、Llama-3等),首次量化揭示‘过度拒绝率’与‘风险漏检率’的负相关悖论;• 全套数据集与评估代码已开源(https://github.com/safesci-org);• 重要延伸方向:构建动态风险上下文建模器、开发科学安全强化学习(Safety-RLHF)协议。
  • 相关研究
    • 'ScienceQA: A Dataset for Scientific Question Answering' (ACL 2022) —— 侧重能力而非安全;• 'BioMedical Safety Bench (BMSB)' (NeurIPS 2023) —— 单一医学领域、人工评分为主;• 'HarmBench: A Comprehensive Benchmark for Harmful Behavior Detection' (ICML 2024) —— 通用有害性,缺乏科学准确性约束;• 'SciSafe: Evaluating Safety in Scientific LLMs' (arXiv:2402.13897) —— 小规模试点,未解耦知识与风险。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问