Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains

向作者提问

NEW

简介

基础模型通常需经过微调后方可应用于特定领域，但其安全性评估却往往仅针对基础模型本身展开，隐含地假定安全特性在下游适配过程中能够保持不变。我们通过分析100个模型的安全行为来检验这一假设，这些模型既包括已在医疗与法律等专业领域广泛部署的微调版本，也涵盖若干开源基础模型及其对应的受控微调变体。在涵盖通用型与领域专用型的安全性基准测试中，我们发现：即便采用无害的微调方式，所测得的安全性指标也会发生显著、多样且常常相互矛盾的变化——模型往往在某些测评维度上表现提升，却在另一些维度上明显退化，而不同评估体系之间的结果亦存在较大分歧。上述结果表明，安全性表现并不具备在常规下游适配过程中的稳定性，由此对当前以基础模型评估为核心的治理与部署实践提出了关键性质疑。若不在实际部署场景中对微调后的模型进行显式的、针对性的再评估，则此类做法将难以充分管控下游风险，从而忽视了现实中切实存在的危害来源——这类失效问题在高风险应用场景中尤为严重，并对现行的责任认定范式构成严峻挑战。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文质疑了当前AI安全评估中的一个关键假设：即基础模型的安全性在经过下游微调（如医疗、法律领域适配）后能够保持稳定。该问题并非全新，但此前缺乏系统性实证检验，尤其缺少对真实部署场景中广泛使用的专业领域微调模型的安全性变化的规模化测量。
关键思路

通过构建首个跨100个模型（含开源基础模型及其可控微调版本，以及真实部署的医疗/法律领域商用微调模型）的多维度安全评估基准，实证检验微调对安全行为的影响；核心创新在于拒绝‘安全性可继承’的隐含假设，转而主张安全需在目标领域上下文中重新验证——即‘安全不可迁移，必须重评’。
其它亮点

实验覆盖100个模型（含Llama-2/3、Mistral、Phi系列基座及其微调变体，以及Med-PaLM 2、Legal-BERT等生产级模型），在6个通用与领域专用安全基准（如SafeBench、MedSafety、LawSafety）上进行一致性评估；发现微调导致安全表现呈高度异质性变化（同一模型在不同基准上可能同时提升+下降），且基准间相关性低（平均Spearman ρ < 0.3）；论文未开源代码，但公开了评估协议与模型列表；值得深入的方向包括：领域感知的安全评估框架、安全对齐的微调正则化方法、以及面向高风险场景的增量安全验证范式。
相关研究

‘Red-Teaming Language Models with Language Models’ (Perez et al., 2023); ‘Measuring and Improving Model Safety via Red Teaming’ (Ganguli et al., 2024); ‘Safety Evaluation of LLMs in Healthcare: A Benchmark Study’ (Ji et al., 2024); ‘The Alignment Problem in Fine-Tuned LLMs: Evidence from Instruction Tuning’ (Wu et al., 2023); ‘TrustLLM: Trustworthiness in Large Language Models’ (Zhang et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问