- 简介以往关于可信人工智能的研究,主要聚焦于模型内部属性,例如偏差缓解、对抗鲁棒性以及可解释性。然而,随着人工智能系统逐步演进为部署于开放环境中的自主智能体,并日益与支付系统或资产相连接,其“可信”这一概念的运营内涵也随之发生转变——由关注模型本身转向端到端的实际成效:即智能体能否成功完成任务、是否准确遵循用户意图,以及是否避免引发实质性损害(如财产损失)或心理伤害的运行失败。此类风险本质上属于产品层面,无法单靠技术性防护措施予以彻底消除,因为智能体的行为天然具有随机性。为弥合“模型级可靠性”与“面向用户的保障”之间的鸿沟,我们提出一种互补性的风险管理框架。该框架借鉴金融领域承保(underwriting)的理念,引入了**智能体风险标准(Agentic Risk Standard, ARS)**——一项专为人工智能中介交易设计的支付结算标准。ARS将风险评估、承保决策与赔偿机制整合至统一的交易框架之中,从而在用户与智能体交互过程中为其提供切实保障。依据ARS,当出现执行失败、目标错位(misalignment)或意外后果等情形时,用户均可获得预先明确约定、且具备合同约束力的赔偿。此举将“信任”从对模型行为的一种隐含预期,转变为一项清晰界定、可量化衡量、并具法律执行力的产品保障承诺。此外,我们还开展了一项模拟研究,分析ARS应用于智能体交易所可能带来的社会效益。ARS的具体实现代码已开源,详见:https://github.com/t54-labs/AgenticRiskStandard。
-
- 图表
- 解决问题传统可信AI研究聚焦于模型内部属性(如偏差缓解、对抗鲁棒性、可解释性),但当AI系统演变为在开放环境中运行、连接真实资产与支付的自主智能体时,'信任'的本质已从模型可靠性转向端到端任务结果保障——即是否完成任务、忠实执行用户意图、避免造成物质或心理伤害。现有技术方法无法消除智能体行为固有的随机性与环境不确定性,导致用户面临不可保、不可赔、不可追责的操作风险。这是一个新兴且紧迫的产品级信任缺口问题。
- 关键思路提出Agentic Risk Standard(ARS)——一个受金融承保(underwriting)启发的、面向AI代理交易的支付结算标准框架。其核心创新在于将风险评估、承保决策与自动赔偿机制内嵌至每次AI代理交易中,使‘信任’从隐式的技术承诺转变为显式、可量化、合同可执行的产品级服务保证(如任务失败/意图错位/意外后果触发预定义赔付)。这是首次将金融风控范式系统性迁移到AI代理产品治理中。
- 其它亮点• 首创将保险承保逻辑(风险分级、保费/准备金建模、赔付触发条件)形式化为AI代理交易协议;• 通过仿真研究量化ARS的社会效益(如提升用户采纳率、降低社会总风险成本、激励开发者优化对齐而非仅追求指标);• 全流程开源实现(GitHub:https://github.com/t54-labs/AgenticRiskStandard),含模拟器、风险计算器与智能合约原型;• 强调‘补偿即保障’(compensation-as-guarantee),突破纯技术防御范式,为AI代理商业化提供可审计、可监管、用户可感知的信任基础设施;• 值得深入的方向包括:动态风险定价算法、跨平台ARS互操作协议、与监管沙盒的协同验证。
- • 'Constitutional AI: Harmlessness from AI Feedback' (Bai et al., 2022) —— 侧重对齐约束的模型内化;• 'Trustworthy Autonomy: A Survey of Verification, Validation and Assurance for Autonomous Systems' (Koopman & Wagner, 2019) —— 聚焦传统自主系统V&V,未覆盖开放环境代理与经济后果;• 'AI Insurance: Towards a Market for AI Risk Transfer' (Brundage et al., 2023, arXiv) —— 提出概念构想,但无标准化协议与可执行框架;• 'AgentScope: A Framework for Safe and Controllable Agent Development' (Zhang et al., 2024) —— 关注沙箱与监控,未解决失败后的用户补偿与责任闭环。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流