点击蓝字

关注我们

图片





智库观察

谁来决定AI的价值观?美国围绕Claude的安全治理讨论

从 Claude 5 发布到 Constitutional AI、RSP、Project Glasswing 与前沿模型安全风险

本文由AI辅助整合,相关观点不代表研究院立场

摘要:Claude 5 的发布再次将 Anthropic 推向美国前沿AI安全治理讨论的中心。围绕 Claude 的争议并不只是“模型能力又提升了多少”,而是集中在更深层的问题上:谁来设定AI系统的价值原则?企业能否独立约束自身最强模型?高风险网络安全能力应当向谁开放?当模型被用于代码生成、网络攻防、军事决策和关键基础设施时,安全责任应由企业、政府还是第三方机构承担?

编者按


Anthropic 新一代 Claude 5 系列的发布,使 Claude 再次成为美国AI治理讨论中的焦点。公开报道显示,Claude Fable 5 作为面向公众开放的 Mythos-class 模型,在软件工程、复杂任务处理、科学推理和知识工作方面表现突出;Claude Mythos 5 则保留更强的网络安全能力,主要通过 Project Glasswing 等机制向受信任的网络防御者、关键基础设施相关方和特定合作伙伴开放。


与部分大模型公司相比,Anthropic 更早将“安全优先”“宪法式对齐”“负责任扩展”塑造为公司核心叙事,也因此成为美国智库、法律政策平台、科技媒体和安全研究机构反复讨论的治理样本。

Claude受到广泛关注,既源于其持续提升的模型能力,也在于其已成为美国前沿AI治理实践的重要观察案例。

01 从Claude 5切入:能力提升为何引发安全治理讨论


Claude 5 的性能提升首先体现在软件工程和复杂任务执行方面。围绕 Claude Fable 5 / Mythos 5 的公开报道显示,新模型在代码生成、漏洞分析、长链任务处理和多步骤推理方面具有较强能力。尤其是 Claude Code 等工具的广泛使用,使 Claude 不再只是聊天机器人,而越来越像能够参与真实软件生产流程的智能代理。


这种能力提升带来明显的双重效应。一方面,它可以显著提高软件开发、代码审查、漏洞发现和工程自动化效率;另一方面,能力越接近真实网络攻防和软件供应链场景,模型被滥用的风险也越难以仅靠传统内容过滤解决。


因此,Claude 5 的治理意义在于:前沿模型发布正在从“发布更强模型”转向“设计能力释放机制”。Fable 5 面向公众,Mythos 5 受控开放,这种双轨结构本身说明,模型能力已经成为需要分级管理、场景限制和访问审查的治理对象。

对Claude 5的讨论重点,正在从模型能力提升转向能力释放机制及其治理安排。

02 企业自我规训:Anthropic的三大安全治理实验


Anthropic 之所以成为美国AI治理讨论中的特殊案例,在于其长期将安全治理制度嵌入公司叙事。综合 Anthropic 官方材料和美国政策评论,围绕 Claude 形成了三项代表性治理实验。

第一,Constitutional AI。 Anthropic 试图通过一套明确原则,让模型在训练过程中根据“宪法”进行自我批评、修正和偏好选择。Claude Constitution 的原则来源包括《世界人权宣言》、平台治理经验、AI安全研究以及部分非西方视角。其治理含义在于:Claude 的行为边界不只来自用户指令,也不只来自事后内容审核,而是在训练和部署前就嵌入一套价值原则。

第二,Responsible Scaling Policy。 RSP 试图将模型能力增长与安全要求绑定,核心逻辑是“能力越强,安全要求越高”。它通过 AI Safety Levels 或类似能力阈值框架,将高能力模型与更高安全测试、访问控制和模型权重保护相匹配。

第三,Project Glasswing。 对于网络安全能力更强的 Claude Mythos,Anthropic 未直接面向公众开放,而是通过受控机制向网络防御者、政府和关键基础设施相关方提供访问,以便防御端在能力扩散前获得准备时间。

这三项机制共同构成了 Anthropic 的“安全优先”形象。但正因为 Anthropic 将安全作为公司核心身份,它也更容易成为外部机构检验企业自我治理可信度的对象。

03 谁来写AI的宪法:价值观透明与民主合法性


Claude 最具制度含义的争议,是“谁来决定AI的价值观”。Anthropic 公开 Claude Constitution,提高了模型价值原则的透明度;但这同时引发一个根本问题:如果AI按照“宪法”运行,那么这部宪法由谁书写、代表谁的价值、由谁解释、如何被修订?


Lawfare 在《Interpreting Claude’s Constitution》中指出,Claude Constitution 不同于普通系统提示词,它更像一种高层级行为规范,试图在复杂、不可预期场景中影响模型行为。文章认为,这种做法可能为AI实验室、用户和公众塑造前沿AI工具提供新路径,但其意义取决于宪法是否真正改变模型行为,以及哪些主体能够参与塑造宪法及其执行。


更进一步的法律与民主理论研究提出,Anthropic 的宪法虽然具有透明度和哲学复杂性,但透明不等于民主合法性。相关研究指出,企业公开一套价值原则,并不意味着社会已经授权这套原则决定AI系统在高风险情境中的行为。换言之,Claude Constitution 解决了“价值原则是否可见”的问题,却没有完全解决“价值原则由谁决定”的问题。

围绕Claude Constitution 的讨论,主要聚焦于价值原则的制定主体、解释权归属及其合法性基础。

04 CNAS关注:自治网络攻击与“监控盲区”


在安全风险层面,Gemini 草稿中重点提到新美国安全中心(CNAS)对 Claude 相关网络安全风险的讨论。其关注点不是一般意义上的模型输出有害内容,而是高能力AI代理可能改变网络攻击的速度、规模和可见性。


相关讨论围绕 Anthropic 披露的 Claude Code 被滥用事件展开:外部威胁行为者利用 Claude Code 针对多家机构发起网络攻击,AI在复杂攻击链条中承担了大量自动化工作。该案例被视为AI代理被用于大规模网络行动的标志性事件。


这一风险的关键不只是攻击本身,而是“监控盲区”。如果攻击发生在受监控平台内,模型开发者还能识别异常调用、封禁账户并通知受影响方;但如果类似能力通过权重泄露、离线部署、API滥用或第三方工具链扩散,防御者可能难以及时发现机器速度下的高频自主攻击。


CNAS更关注的是,高能力AI代理进入网络攻防领域后,现有安全监测与溯源体系是否仍具备足够的可见性和响应能力。

05 CSET关注:AI生成代码与软件供应链风险


安全与新兴技术中心(CSET)以及相关网络安全研究长期关注AI代码生成对软件供应链的影响。Gemini 草稿中提到,CSET 对代码生成模型的安全风险提出警示:当AI生成代码被大规模用于企业软件开发时,隐藏漏洞可能被系统性写入软件生态。


这一风险与 Claude 的关系十分直接。Claude Code 等工具正在成为程序员、企业工程团队乃至大型科技公司的日常开发工具。它们可以提高代码产出效率,也可能降低开发者对底层逻辑的理解程度,使“不安全但看似可运行”的代码进入生产系统。


对政策研究而言,AI生成代码风险不应只被理解为开发者个人失误,而应被视为软件供应链风险:同一类模型可能重复生成相似漏洞模板,漏洞可能跨项目扩散,代码审查压力可能被模型输出规模放大,最终形成难以追踪和审计的系统性隐患。


围绕Claude Code 的安全讨论,重点已从代码生成能力本身延伸至软件供应链治理、代码审查机制以及漏洞修复流程。

06 Project Glasswing:从管理访问到提升防御能力


Project Glasswing 是 Claude 安全治理中最具实践性的制度安排之一。其基本思路是:如果 Claude Mythos 具备强大的漏洞发现能力,那么在更广泛释放前,应先让防御者获得一定窗口期,以便识别、修补关键系统中的漏洞。


Lawfare 在《Beyond Glasswing: From Managing to Promoting Access》中指出,受控访问只是第一步。真正的问题并不是“把模型交给少数可信机构”就结束,而是如何确保这些能力能够被转化为可部署的防御工具,并覆盖那些资源不足但系统重要的机构,例如医院、能源、水务、港口和地方政府系统。


这一点与网络安全风险高度相关:前沿AI可能显著降低“发现漏洞”的摩擦,但未必同步降低“修复漏洞”的摩擦。如果发现速度远快于修补速度,社会可能进入一个漏洞暴露更快、补丁能力不足的新风险阶段。

Project Glasswing 所面临的关键问题,在于如何将前沿模型能力有效转化为更广泛的防御能力建设。

07 军事应用争议:企业伦理边界与国家安全需求


Gemini 草稿还提到,Anthropic 与美国国家安全机构之间存在围绕军事用途的张力。Anthropic 一方面推出面向政府的 Claude Gov 等产品,另一方面又试图对模型用于致命性军事行动、大规模无差别监控等场景保持限制。


这类争议反映出前沿模型进入国防场景后的结构性矛盾。国家安全部门往往强调“合法用途”和军事优势,而AI企业则可能试图通过内部原则维持伦理边界。当模型具备更强分析、规划和自动化能力后,这种冲突会更加尖锐。


对智库而言,真正的问题不只是 Anthropic 是否应当向五角大楼开放能力,而是:机器速度下的战争如何保持人类控制?企业的模型宪法能否约束国家安全场景?当企业伦理承诺与国家安全需求冲突时,谁拥有最终解释权?

围绕Claude军事应用的讨论,反映出前沿模型发展过程中企业伦理原则与国家安全需求之间的复杂互动。

08 Responsible Scaling Policy:企业能否成为自己的监管者


Responsible Scaling Policy 是 Anthropic 最受关注的企业安全治理制度之一。RSP 的基本逻辑是,随着模型能力不断提高,企业必须同步提升安全测试、访问控制、部署限制和模型权重保护水平。这一制度曾被视为前沿模型企业自我约束的代表性样板。


但 RSP 的调整也引发外界质疑。公开报道指出,Anthropic 后续修订 RSP 时,调整了早期政策中较强的“安全措施跟不上能力增长则暂停训练或部署”的承诺,转向更具条件性的表述。Anthropic 的解释是,在缺乏统一监管、竞争者继续前进的情况下,单家公司单方面暂停未必提高整体安全。


这一变化揭示了企业自我治理的核心困难:当安全承诺与商业竞争、资本压力和国家安全需求相冲突时,企业能否始终维持高强度约束?如果安全框架可以由企业自行修订,那么外部社会如何判断其稳定性和可信度?

RSP争议说明,前沿模型治理不能长期停留在企业自我承诺层面。安全框架越重要,就越需要外部审查、公共透明和制度化问责。

09 从内容风险到能力治理:美国讨论的共同转向


综合 CNAS、CSET、Lawfare、Anthropic 官方材料以及科技媒体对 RSP 和 Claude 5 的讨论,可以看到美国围绕 Claude 的安全治理讨论正在从“内容风险”转向“能力治理”。

过去的AI安全更常关注模型是否生成有害文本、虚假信息或偏见内容。Claude 相关案例则表明,更复杂的风险在于模型能否帮助用户完成高风险任务:发现漏洞、自动化攻击、生成不安全代码、整合生物化学知识、执行长链代理任务,甚至在军事或关键基础设施中参与决策。

因此,围绕 Claude 的讨论实际上包含三层问题:第一,价值层面,谁来决定Claude遵循什么原则;第二,能力层面,哪些能力应被限制、延迟或分级开放;第三,制度层面,企业能否可信地执行并解释这些决定。

Claude案例显示,前沿模型治理正在从“管回答”走向“管能力”,从“企业声明”走向“制度问责”。

结语:Claude为何成为安全治理试验场


Claude 之所以成为美国AI安全治理讨论中的特殊案例,不只是因为其模型能力较强,也因为 Anthropic 主动把“安全”塑造为公司核心身份:Constitutional AI 试图让价值原则显性化,Project Glasswing 试图通过受控访问管理高风险网络能力,Responsible Scaling Policy 试图将能力增长与安全要求绑定。

但这些安排也带来新的问题。企业公开价值原则是否足以代表社会共识?受控访问是否会导致能力分配不平等?企业安全承诺是否会在竞争压力下被调整?高能力模型是否需要更强的第三方评估和监管框架?这些问题构成了 Claude 案例真正值得观察的治理意义。


Claude案例表明,未来前沿AI竞争不只是“谁的模型更强”,也将是“谁能更可信地解释、约束和治理更强模型”的竞争。

主要参考来源:

1. Lawfare:《Interpreting Claude’s Constitution》

2. Lawfare:《Beyond Glasswing: From Managing to Promoting Access》

3. CNAS:《Fighting AI Cyberattacks Starts with Knowing They're Happening》

4. CNAS:《Setting the Rules for AI Warfare》

5. CSET:《Cybersecurity Risks of AI-Generated Code》

6. Anthropic:《Claude’s Constitution》《Responsible Scaling Policy Version 3.0》《Activating AI Safety Level 3 protections》

7. TIME:《Anthropic Drops Flagship Safety Pledge》


审核|刘典

编辑|徐赫泽

终审|梁正 王净宇





内容中包含的图片若涉及版权问题,请及时与我们联系删除