算法影响评估的制度定位、机制模式与改革启示

编者按

在算法深度嵌入社会运行的今天，我们正步入一个由代码与概率交织而成的“不可解释”时代。当算法推荐决定信息流向、信用评分左右生活机遇、甚至AI决策开始影响司法公正时，我们该如何构建一套既能拥抱技术创新，又能守住社会公平底线的治理逻辑？2024年11月在《电子政务》上发表的《算法影响评估的三个基本问题：制度定位、机制模式与改革启示》（点击阅读全文）一文，精准切中了这一时代命题。研究指出，算法治理面临着社会嵌入性、难解释性与公平性悖论的双重挑战，传统的“命令—控制”型监管已难以为继。算法影响评估（AIA）并非简单的合规“工具箱”，其核心价值在于构建一种平衡“开放性”与“责任性”的合作治理框架，旨在动态积累治理经验，化解算法决策中的不确定性风险。

本期对话佳作我们有幸邀请到论文作者之一阿里研究院人工智能治理中心傅宏宇老师作为访谈嘉宾。我们将从算法歧视的治理困境出发，深度探讨全球视野下算法评估的实然模式，并立足中国实践，剖析如何通过“技术—组织—社会”的系统论思维，推动算法治理从简单的责任判定向综合性治理框架演化发展。

嘉宾介绍

傅宏宇，法学博士，现任阿里巴巴集团科技伦理委员会研究组负责人、阿里研究院人工智能治理中心主任及数据经济研究中心主任，拥有生物学、经济学和法学的跨学科教育背景，曾任职于北京外国语大学法学院。傅宏宇长期致力于人工智能治理、数据经济与法治等领域的研究，是”敏捷治理“理论的积极倡导者和推动者，曾参与起草《人工智能示范法》，并在国际顶尖学术期刊《科学》（Science)上发表关于中国人工智能监管的研究成果。此外，他还担任电子科技大学公共管理学院协议副教授、清华大学产业发展与环境治理研究中心兼职研究员等学术职务。

访谈实录

Q1：首先想请您介绍一下这篇文章的主要内容和它诞生的契机。

这篇文章诞生的背景，其实就是在人工智能治理时面临的一个非常大的问题，叫做“克林格里奇困境”，或者叫“步调难题”。意思是说技术与治理之间存在步调不一致的难题：在技术发展初期，其影响很难被观测到，我们不知道如何治理；而等技术成熟或快速扩散后，它带来了重大的社会成本，此时再采取治理机制可能就为时已晚了。

克林格里奇困境在 AI 时代呈现出一个新的面向：步调难题的根源不再是政府与企业之间的信息不对称，而是双方共同面临的共同无知。大模型的黑箱特性、能力的非线性跃迁以及应用场景的开放性，使得谁也不知道风险在哪里成为 AI 治理的真实起点。若双方都不是全知者，那么谁有权定义风险就不再是一个基于知识优势的技术判断问题，而是需要重新协商的制度安排问题。

因此，将步调难题上升为知识生产的制度性追问，其要义不在于比较谁比谁知道得更多，而在于承认双方的共同局限，进而设计一种基于合作的知识共建机制。安全作为公共产品和动态评估机制可以回应了这一需求：企业在实践中持续产出风险知识，政府通过采纳机制将其转化为公共标准，双方在迭代中共同填补认知盲区。风险的定义权由此从单方垄断走向协作生成：不是由某一方独占定义权，而是在共同无知的前提下，通过制度化的知识积累与对话机制，让风险定义成为一个持续演进的公共过程。

这篇文章的核心就在于探讨如何更快速、精准地判断人工智能对人类社会的影响，从而进行有效的“回应性治理”。文章主要从几个方式切入：首先是定义“算法影响评估”的制度定位，明确技术迭代与公共治理的制度接口；其次是明确机制模式，探讨评估应当是静态指标化的，还是场景化、迭代化的模型；最后是探讨对我国治理模式构建的启示，包括风险分级管控、动态校准以及责任适配等，提出一种负责任的治理模式。

Q2：大模型的特征让风险极难预判，静态审计似乎追赶也有困难。您在论文中提到要通过算法影响评估来累积治理知识，在实践中如何建立一套既能深入模型底层逻辑，又能保持灵活性的“动态检测”机制？

我想澄清一下算法影响评估机制的来源。产业界常用的“模型评测”（model evaluation）是它的一种具体的、科学化的衍生机制，比如检测回答是否准确、是否有幻觉。而文章提到的评估，是将其进行政策化转化。比如拜登政府行政命令提出的强制性模型评测（mandatory red teaming），我们在思考将企业的自发评测转换成强制的三方评测时，制度体系会是怎样的。我们提出的评估模式是动态的、过程性的。首先，算法影响评估不是为了给出一个“合格”或“不合格”的终极结论，而是为了在不断的交互中“累积治理知识”。其次，这种机制需要建立一种“安全作为公共产品”的逻辑。在模型底层逻辑不可解释的前提下，追求实质性安全意味着安全从因果性解释转向功能性证成。传统的安全评估建立在因果透明性之上：理解系统的运行机制，从而预测其行为、界定其风险。但大模型的黑箱特性使得这一方案遇到根本性障碍。

模型评测其本质是行为主义的——通过观察模型在大量测试场景中的输出来推断其安全性，而非直接理解其内部推理过程。实践中，“实质性安全”的证据链是多层次的：第一层是行为证据，即模型在标准化测试集、对抗性攻击、边界条件下的模型表现；第二层是过程证据，即企业在开发、部署、监测全生命周期中所采取的安全措施和治理流程的可审计记录；第三层是生态证据，即模型在真实社会场景中运行后，通过用户反馈、事故报告、第三方监测所积累的实证数据。

此外，安全是动态而非静态的。安全不是某次评估的静态结论，而是一个持续积累的公共知识库，其可信度不依赖于单一环节的完美，而依赖于多元证据来源之间的交叉验证和持续更新。

Q3：监管者与开发者之间的“共同无知”是文章强调的一个点，这可能导致合规工作流于形式。您提到的“惩罚性默认机制”非常有启发性，如何设计这类制度，让企业觉得主动合规比监管套利更划算？

传统的监管评估中，监管者预设标准，若企业不执行则面临惩罚，这种对立关系容易导致监管套利或逃逸，企业往往能躲就躲。但人工智能治理最大的核心点不是预设对立，而是将其转化为合作关系。所谓“共同无知”，首先要求监管者调整身份，不再是单纯的执法者，而是和企业共同解决风险问题；双方共同推动技术发展，共同判断应对风险，不存在谁先谁后。其次，企业要将安全治理看作机遇而非成本。解决不确定性问题能让产品得到更广泛的社会认可度，通过主动负责的行为创造价值。在这种双重变化下，企业主动贡献安全知识和方案，将其作为公共产品，其实比监管逃逸更划算。算法影响评估最核心的点就是连接两套信任机制：监管对企业的信任和企业对监管的信任。

进一步从博弈结构来看，在传统监管博弈中，监管者以一定概率检查，企业以一定概率违规。在这种博弈结构下，合规是单纯的成本，企业合规的动力来自对惩罚的恐惧，当逃逸概率足够大或惩罚力度不足时，违规就是理性选择。惩罚性默认机制改变了博弈的信息结构和支付结构。其核心逻辑是：在共同无知的前提下，默认假定未经验证的模型行为是有风险的，企业若不主动参与评估并提供安全信息，则触发更严格的管控措施。这实质上将博弈从检查博弈转化为一种信号博弈，企业通过主动合规行为向监管者和社会传递“我是安全”的可置信信号，而沉默或逃逸则被视为高风险信号。

此外，惩罚性默认可以促进让企业将进行外部性内部化。AI模型的安全风险具有典型的负外部性特征，风险的社会成本由公众承担，而收益由企业获取。传统合规即成本模式下，当负外部性未被内部化时，安全投入对企业而言毫无收益。惩罚性默认使得不内部化外部性带来的成本（被施加更严管控、丧失市场信任）高于内部化的成本（主动安全投入），将公共利益与企业利益的平衡从外部强制转化为内生激励。

Q4：AI 已经从专用走向通用，机器对社会的嵌入越来越深。在您文章提出的“技术—组织—社会”系统框架下，该如何重新审视人类对机器的主导权，确保其不偏离以人为中心的轨道？

人工智能变强对全人类福祉来说是利大于弊的发展轨迹，在国际竞争背景下，“不发展才是最大的不安全”。关于主导权，工业时代强调让机器受制于人，甚至在 2023 年大家还讨论过是否要有一个“一键停止”的按钮。但现在 AI 已作为基础设施嵌入各个环节，一键关停反而会带来更大的危害。因此，人机关系应建立在一种共生、共栖（cohabitant）的状态，在价值创造上实现共赢。这种控制不是零和的。随着技术演进，我们的控制方案也在迭代，比如加强内生安全性、采取差异化的外围护栏机制、引入专业红队测试。 “以人为中心”意味着两点：一是让人工智能服务于人类价值；二是保护敏感群体，比如针对青少年人群的情感陪伴服务进行实时调整和约束。这并不代表物理性的主导，而是要通过协同，培养人在 AI 时代的“胜任力”，让人能更好地使用工具从事创造性劳动。

AI背景下的人机协同，不是人对机器的单方面控制，也不是要求智能系统模拟人的方式去运转，而是将人的价值体系嵌入智能系统之中，在此基础上实现人与机器各自能力的互补与协同。单方面控制思维的困境不仅是AI已作为基础设施嵌入各个环节，一键关停反而会带来更大危害。更深层的原因在于，模型的能力已超越了工具的范畴，具备了在复杂、模糊场景中进行判断和执行的能力。人机协同的真正价值在于互补性：人类擅长价值判断、伦理权衡、情境理解和创造性思维，AI擅长大规模信息处理、模式识别和高速推理。协同的目标不是让AI成为人的复制品，而是让双方在各自优势领域中形成合力。在协同中保持人的主体性核心是要将人的价值体系嵌入智能系统。在模型训练、对齐等环节中，将人类社会核心价值编码为系统运行的内生约束，而不是仅依赖外部的事后审查。这种嵌入不是一次性的技术操作，而是随着模型能力演进和社会价值变迁而持续校准的动态过程。

Q5：论文探讨了开放性与责任性的冲突。如果要为企业留出实验空间，同时守住安全底线，应如何界定最低限度的实质性治理目标？底线由谁决定才最权威、敏捷？

中国人工智能治理最大的成就是兼顾了发展与安全。治理应嵌入技术的应用过程之中，构建体系化的治理模式，而不是生搬硬套传统的上线前控制。因为事前评估不仅动态性不足，且一旦评估通过后出问题，责任归属也会很模糊。关于底线，我们划清了“三条红线”：国家安全、个人隐私、商业秘密。当技术涉及这些底线时，它是绝对不能被超越的。模型要遵从的行为边界是分层的，比如模型规约中，有些规则是即使用户或开发者也不能自行自配配置的。

谁来划定？我认为企业应主动承担发现规则的义务，因为企业在实践中能最先发现问题，现在的模型规约很多也是企业主动提出的。但政府的角色非常关键，政府要通过“采纳”（adopt）的方式，将企业的最佳实践上升为共同遵循的标准、规约或法律。政府在采纳时必须站位公允、全局，平衡发展与安全，并具备高度的敏捷性。

“政府采纳企业最佳实践”实质上是一种实验主义治理的制度安排。政府设定框架性目标，具体的技术标准和操作规范则由企业在实践中探索，再经政府审议后上升为普遍适用的规则。这种规则制定权的再平衡体现了从命令-控制型治理向回应-协商型治理的模式转换。政府的角色从全知的规则制定者转变为规则的筛选者、认证者和整合者。这并不意味着权力的削弱，而是权力运作方式的转型——政府在采纳环节应具备具技术鉴别力（判断实践标准的科学性）、公共代表性（确保标准反映公共利益而非特殊利益）以及制度转化力（将实践标准转化为具有约束力的规范）。

Q6：如何避免算法评估变成僵化的行政打卡，并让金融、医疗等垂直行业的监管者根据自身场景灵活发展差异化工具？

人工智能未来一定是“通专结合”的。通用技术决定底线，专业场景的行业知识推动应用。我们的思路是在通用技能上满足基本要求，在专业场景中满足特定要求。目前我国对生成式 AI 服务有备案制，若涉及医疗、教育等领域，则会有行业主管部门的专项要求。比较理想的模式是尽量做到“一站式评估”。最根本的还是要回归到协同治理。行业管理部门的要求无法覆盖通用能力，通用能力的评估也无法 100% 确保符合行业要求。因此，跨部门的联合评估机制非常重要，特别是在地方政府层面，各部门之间的有效协同是关键。

关于如何实现这种协同，我认为判断能不能管，政府 AI Readiness 是认知前提。政府要有效监管 AI，首先必须自己懂 AI。每个垂直领域的监管者只有具备了对 AI 技术的实质性理解，才能开发出契合本行业场景的差异化治理工具。比如美国 OMB 要求每个联邦机构必须设立首席 AI 官，建立了跨机构的首席 AI 官委员会，协调各机构共享人才池，要求所有联邦雇员完成 AI 基础素养培训，此类做法值得借鉴。

同时，协同治理中“多部门联合发文”是另一种方案。虽然我国目前没有设立统一的 AI 监管机构，但在行为层面已形成了高效的跨部门协作模式。《生成式人工智能服务管理暂行办法》由国家网信办联合发改委、教育部、科技部、工信部、公安部、广电总局七部门共同发布；算法推荐、深度合成、内容标识等治理规范也遵循了类似的多部门联合模式。联合发文机制不需要打破既有科层结构，而是在保留各部门专业分工的前提下，通过政策文件的联合署名实现规则层面的统一性，各部门在各自管辖领域内依据共同规则进行差异化执行。这在实质上达成了“一站式”治理的效果——企业面对的是一套统一的基础规范，而非来自不同部门的矛盾要求。

往期精彩回顾

▼

访谈：杜尚仪

编辑：杜尚仪

制图：高蓬丽

审校：方泽贤、杨书帆

内容中包含的图片若涉及版权问题，请及时与我们联系删除

算法影响评估的制度定位、机制模式与改革启示 | 对话佳作第251期

评论列表

评论