OpenAI安全策略新动向【AI战略洞察】

点击蓝字

关注我们

目录

OpenAI的历史安全策略

(一)早期策略

(二)关键案例

最新安全措施

AI安全政策演变关键事件

(一)节点事件

(二)山姆·奥特曼（Sam Altman）与OpenAI

OpenAI的历史安全策略

(一）早期策略

OpenAI自成立以来，在AI安全方面的基本策略和原则主要围绕几个核心方向展开：

1.对抗攻击的防御：OpenAI探索了多种策略来保护AI系统免受对抗性攻击。例如，通过在推理时引入随机性来隐藏表示学习，以及利用LSTM分析输入序列来检测攻击序列。此外，还有使用视觉相似输入来避免黑客攻击的方法。

2.开源软件的安全性：随着开源AI软件项目的增多，OpenAI也关注于如何确保这些项目的安全性。研究表明，代码所有权与项目中的潜在漏洞之间存在正相关关系。

3.全面的安全框架：OpenAI参与开发了一个全面的框架，用于确保人工智能的安全性和隐私性。这个框架包括数据保护、安全措施、风险评估等多个方面。

4.开放性与透明度：OpenAI强调在AI开发中保持开放性的重要性，包括源代码、科学、数据等的公开。这种开放性有助于短期内带来社会上的好处，但也需要考虑到长期的战略影响。

5.社会技术方法：面对AI的快速普及和广泛采用，OpenAI认为只有通过社会技术的方法才能真正限制当前和未来的危险。这包括政府和企业的投资以及对现有系统的改进。

6.创新管理模式：OpenAI通过创新的管理模式，如依靠大模型为核心的创新引擎，推动了科技、金融和产业场景的良性循环，从而在全球人工智能领域中保持领先地位。

7.安全测评和防御加固：为了提升AI系统的安全性和鲁棒性，OpenAI提出了针对AI系统的安全测评和防御加固方案，包括精准检测和拦截对抗攻击等措施。

（二）关键案例

OpenAI在处理AI安全问题时采取了多种具体做法，其中包括对GPT模型的逐步开放和限制。

1.逐步开放与限制：

a. OpenAI通过逐步开放其大型语言模型（如GPT-3）的方式，允许研究人员和开发者在控制的环境中测试和评估这些模型的能力和潜在风险。例如，GPT-3在发布前进行了广泛的测试，以确保其不会产生有害或不准确的信息。

b. 在开放插件生态系统方面，OpenAI提出了一个系统性的评估框架，用于分析和改进插件集成的LLM平台的安全性、隐私性和安全性。这包括识别和防范可能的攻击类型，并提供改进建议。

2.安全测试与防御机制：

a. OpenAI的研究团队与其他研究机构合作，开发了多种算法来生成对抗样例，这些样例可以用来测试和增强模型的鲁棒性。例如，DeepFool算法被用来计算能够欺骗深度网络的微小扰动。

b.此外，OpenAI还研究了使用大型语言模型（LLMs）进行零次学习漏洞修复的方法。研究表明，这些模型能够有效地修复合成生成和手工制作的场景中的漏洞，以及历史开源项目中的一部分真实世界漏洞。

最新安全措施

OpenAI为了保证全球超过1亿的ChatGPT和数百万开发人员，能以安全、稳定的方式使用其产品，更新了安全策略和保护措施。

1.模型测试与发布前评估

在发布前，OpenAI会准备框架和自愿承诺，对模型安全性进行内部和外部的
实证评估。如果新模型的风险等级达到准备框架中的“中等”风险阈值，将不会
发布该模型，直到实施足够的安全干预措施，将风险等级降低回“中等”。
例如，在发布GPT-4o时，超过70位外部专家帮助OpenAI通过外部努力评估
相关的风险。这种评估不仅包括公司内部的审核，还包括外部专家的参与，以获得更全面的风险评估。

2.对齐和安全研究

OpenAI的模型随着时间的推移变得更加安全。这可以归因于构建更智能的模型，这些模型通常犯的事实错误更少，即使在越狱等对抗条件下也不太可能产生有害内容。未来，OpenAI的模型将被训练遵循的指令，旨在大幅提高AI模型对越狱等攻击的鲁棒性。

3.监控滥用

随着通过API和ChatGPT部署越来越强大的语言模型，利用了包括专用内容审核模型和使用自己的模型监控安全风险和滥用在内的广泛工具。
OpenAI已经分享了一些关键发现，包括与微软联合披露的滥用技术案例，以
便其他人能更好地防范类似风险。还使用GPT-4进行内容政策开发和内容审核决策，实现政策细化的快速反馈循环，减少人类审核员暴露于滥用材料。

4.模型安全方法

在模型生命周期的每个阶段实施一系列安全措施，从预训练到部署。随着在开发更安全、更一致的模型行为方面取得进展，也投资于预训练数据安全、系统级模型行为引导、数据飞轮为持续安全改进和强大的监控基础设施。

5.保护儿童

OpenAI在ChatGPT和DALL·E中构建了强大的默认防护措施和安全措施，以减轻对儿童的潜在伤害。2023年，还与Thorn的Safer合作，检测、审查并向国家失踪和受剥削儿童中心报告儿童性虐待材料。

6.公平诚信

OpenAI与政府和利益相关者合作，防止滥用确保AI生成内容的透明度，并提高获取准确投票信息的途径。为此，还引入了一个工具，用于识别DALL·E 3创建的图像，加入了内容真实性倡议（C2PA）的指导委员会，并在DALL·E 3中加入了C2PA元数据，帮助人们了解在网上找到的媒体的来源。

7.影响评估和政策分析

OpenAI的影响评估工作在研究、行业规范和政策方面具有广泛影响力，包括早期关于测量AI系统与化学、生物、放射性和核（CBRN()）风险相关的工作，以及研究估计不同职业和行业可能受语言模型影响的程度。还发表开创性的工作，探讨社会如何最好地管理相关风险。

8.安全和访问控制措施

优先保护OpenAI的客户、知识产权和数据。通过API将AI模型部署到世界各地，再通过API控制访问实现政策执行。OpenAI的网络安全工作包括限制对训练环境和高价值算法秘密的访问，基于需要知道的原则，进行内部和外部渗透测试，漏洞赏金计划等。
OpenAI认为，保护先进的AI系统将从基础设施安全的演变中受益，并正在探索像GPU的保密计算和AI在网络防御中的应用等新颖控制措施。为了加强网络防御，通过网络安全资助计划资助第三方安全研究人员。

9.与政府合作

OpenAI与世界各地的政府合作，为有效和适应性强的AI安全政策的发展提供信息。这包括展示工作和分享OpenAI的学习成果，合作试点政府和其他第三方保证，以及为新的标准和法律的公共辩论提供信息。

10.安全决策和董事会监督

作为OpenAI准备框架的一部分，建立一个安全决策的操作结构。OpenAI的跨职能安全咨询小组在部署前审查模型能力报告并提出建议。公司领导层会做出最终决定，董事会对这些决定行使监督权。

AI安全政策演变关键事件

(一）节点事件

1.OpenAI遭黑客攻击：OpenAI在2023年初遭遇黑客入侵，窃取敏感信息但未涉及客户数据和源代码。

2.面临数据泄露风险警告：2023年3月及之后，由于开源库中的bug，OpenAI的ChatGPT可能导致用户的支付信息泄露。

3.发布人工智能安全路径报告：2023年4月5日，OpenAI发布《我们迈向人工智能安全的路径》，回应AI产品安全问题。

4.成立安全保障委员会：2024年5月28日，OpenAI为评估AI模型的安全性和保障措施，正式成立了安全委员会。

5.全球AI热战：2023年6月20日，OpenAI联合创始人、前首席科学家伊利亚（Ilya Sutskever）在社交平台上发文宣布，将创办一家“安全超级智能公司”，该公司已经启动了世界上第一个直接的安全的超级智能实验室，只有一个目标和一个产品：一个安全的超级智能。

6.人事变动：2024年7月，OpenAI宣布重要人事变动，将AI安全负责人Aleksander Madry调任至研究机构的另一个职位，这标志着公司在AI安全性管理上的战略调整。

（二）山姆·奥特曼（Sam Altman）与OpenAI

1.2023年11月17日，OpenAI 宣布 CEO 山姆·奥特曼（Sam Altman）被解雇，CTO 米拉·穆拉蒂（Mira Murati）被任命为临时 CEO。奥特曼的离职是由于他在与董事会的沟通中不坦诚，阻碍了董事会履行职责的能力，董事会对他继续领导 OpenAI 的能力不再有信心。

2.2023年11月18日，三名高级研究人员宣布辞职，包括研究总监雅各布·帕奇科（Jakub Pachocki）、评估人工智能潜在风险的团队负责人亚历山大·麦得利（Aleksander Madry）和研究员西蒙·西德（Szymon Sidor）。突显了 OpenAI 内部对人工智能“安全”实践的长期分歧。

3.2023年11月21日，经过一段时间的谈判，OpenAI 宣布原则上达成协议，奥特曼重返公司担任 CEO，并组建由布雷特·泰勒（Bret Taylor）、拉里·萨默斯（Larry Summers）和亚当·德安杰洛（Adam D’Angelo）组成的新董事会。

4.2024年3月9日，特别独立调查委员会发现，奥特曼的行为“不构成强制解雇”，他重新加入 OpenAI 董事会。调查委员会审查了超过 30000 份文件，并认定此次动荡的原因在于董事会成员之间关系破裂。

5.2024年3月19日，奥特曼在接受播客莱克斯·弗里德曼（Lex Friedman）的专访中，深入剖析了 OpenAI 董事会近期的变动，并畅谈了未来的发展方向。他提到，尽管经历了痛苦和混乱，但这些经历为未来的挑战提供了宝贵的经验和教训。

6.2024年5月，自OpenAI去年11月的内部权力之争后，曾一度被解职的CEO山姆·奥特曼（Sam Altman）迅速重返领导岗位。在过去的7个月里，官复原职的奥特曼不仅通过排除公司内部的主要对手，进一步巩固了自己的领导地位，更是带领OpenAI成功地与苹果达成了一项关键协议，极大地扩展了OpenAI技术的市场影响力。自奥特曼重返OpenAI以来，他在公司内部的主要对手已纷纷辞职或被迫离开。据知情人士透露，奥特曼正在推动董事会对OpenAI现有的非营利组织架构进行全面改革，以避免与公司正在构建的数十亿美元收入业务产生冲突。

7.2024年5月29日，奥特曼挂帅新团队，OpenAI新一代大模型开训，目标超过GPT-4。

8.2024年6月，近日在瑞士举行的2024年的人工智能向善全球峰会（AI for Good Global Summit）上，OpenAI首席执行官山姆·奥特曼（Sam Altman）通过视频连线，与《大西洋月刊》的CEO尼古拉斯·汤普森（Nicholas Thompson）展开了深入的交流。奥特曼预计，在未来将有10到20个大语言模型在全球范围内“存活”并发挥重要作用。这些模型将成为推动各行各业发展的关键力量，同时也将引发对技术伦理、数据安全和国际合作的全新思考。

9.近期彭博社推出的有关奥特曼的系列播客中，其对AI安全的观点得到披露。奥特曼主要表示：

AI的安全性需要多方努力
AI 不会取代人类。
随着AI技术的发展，网络安全等问题也随之而来，这需要社会各界共同关注和解决。
他还呼吁全球合作应对人工智能风险，强调未来十年内我们很可能会拥有非常强大的人工智能系统，任何潜在影响都会成倍增加，因此需要国际间的协作来确保其安全性。
奥特曼多次提到监管人工智能的必要性，敦促国会对大型科技公司实施新规则以确保AI系统的安全性和可靠性。
他认为目前AI安全研究者过于关注某些具体的技术进步，而忽视了其他一些重要的问题，需要更全面的研究视角。

主理人：刘典

编辑：王瑾瑜

排版：须嘉慧

审核：梁正鲁俊群

关于我们

清华大学人工智能国际治理研究院（Institute for AI International Governance, Tsinghua University，THU I-AIIG）是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势，研究院面向人工智能国际治理重大理论问题及政策需求开展研究，致力于提升清华在该领域的全球学术影响力和政策引领作用，为中国积极参与人工智能国际治理提供智力支撑。

新浪微博：@清华大学人工智能国际治理研究院

微信视频号：THU-AIIG

Bilibili：清华大学AIIG

内容中包含的图片若涉及版权问题，请及时与我们联系删除

OpenAI安全策略新动向【AI战略洞察】

(一）早期策略

（二）关键案例

(一）节点事件

（二）山姆·奥特曼（Sam Altman）与OpenAI

评论