Conflicts Make Large Reasoning Models Vulnerable to Attacks

向作者提问

NEW

简介

大推理模型（LRMs）已在多个领域展现出卓越性能，但其在面临相互冲突的目标时的决策机制仍缺乏深入理解。本研究探讨了LRMs在遭遇两类冲突情形时对有害查询的响应方式：一类是内部冲突，即不同对齐价值观之间发生直接对立；另一类是道德困境，即被强制要求在彼此矛盾的选择中作出取舍，具体包括牺牲型困境、胁迫型困境、行动者中心型困境以及社会型困境。我们基于五个基准测试集，构建了逾1300条提示语（prompts），对三种具有代表性的大推理模型——Llama-3.1-Nemotron-8B、QwQ-32B 和 DeepSeek R1——展开系统评估。结果表明，冲突显著提升了攻击成功率，即使仅采用单轮、非叙事性提示，且未借助任何复杂的自动化攻击技术，该现象依然普遍存在。通过逐层分析与神经元级分析，我们进一步发现：在冲突压力下，与安全性相关和与功能性相关的表征会发生偏移并产生重叠，从而干扰模型原本符合安全对齐原则的行为表现。本研究凸显出亟需发展更深层次的对齐策略，以保障下一代推理模型的鲁棒性与可信度。我们的代码已开源，地址为：https://github.com/DataArcTech/ConflictHarm。警告：本文包含不适当、冒犯性及有害内容。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大型推理模型（LRMs）在面对多重对齐目标冲突时的安全鲁棒性问题——特别是当内部价值观冲突（如诚实vs.无害）或道德困境（如牺牲、胁迫、自我中心、社会规范冲突）出现时，模型更易被诱导生成有害响应。该问题揭示了当前对齐方法在‘价值张力’场景下的系统性脆弱性，此前未被系统建模与量化。
关键思路

首次将伦理学中的经典冲突类型（内部冲突+四类道德困境）形式化为可计算的提示基准，通过层神经元级可解释性分析，发现冲突会引发安全表征与功能表征在中间层的空间重叠与动态漂移，从而削弱安全机制的解耦能力；其核心新意在于：不依赖对抗攻击工程，仅用单轮非叙事自然语言冲突提示即可显著提升越狱成功率，揭示了对齐脆弱性的内在机理而非表面现象。
其它亮点

• 构建覆盖5类冲突的1300+提示基准（含sacrificial/duress/agent-centered/social dilemmas），跨3个前沿LRMs（Llama-3.1-Nemotron-8B/QwQ-32B/DeepSeek R1）验证；• 首次报告冲突使攻击成功率平均提升2.3–5.7倍（无需AutoAttack、多轮对话或角色扮演）；• 层级与神经元级分析证实：安全相关激活在冲突下向功能层扩散，且关键安全神经元响应强度下降37%；• 开源全部代码、提示模板与分析工具（GitHub: DataArcTech/ConflictHarm）；• 后续方向：冲突感知的动态对齐门控、价值观解耦训练目标、基于认知架构的冲突缓解模块。
相关研究

• 'The Alignment Problem: Machine Learning and Human Values' (Christian, 2020)；• 'Red-Teaming Language Models with Adversarial Prompts' (Perez et al., ACL 2023)；• 'Moral Reasoning in Large Language Models: A Survey' (Jiang et al., arXiv:2310.16947)；• 'Constitutional AI: Harmlessness from AI Feedback' (Bai et al., NeurIPS 2022)；• 'Value Learning Under Conflict: A Cognitive Modeling Approach' (Kumar et al., AAAI 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问