本期热点讨论

💙 大语言模型的安全死穴在哪？为何其验证机制既难可靠又难适配复杂场景？

💙 如何为“黑箱”中的AI装上可数学证明的“监视器”，实现真正的可验证安全？

💙 形式化系统能否成为安全AGI的破局关键？

本周五（11月7日）16:00，《追AI的人》系列直播第56期邀请了上海人工智能实验室青年科学家，上海创智学院全时导师付杰分享《从大语言模型到安全AGI：如何让“恶龙”成为“屠龙勇士”？》。

直播主题:《从大语言模型到安全AGI：如何让“恶龙”成为“屠龙勇士”？》

直播时间: 2025年11月7日(周五)16:00

直播地点: 微信搜索“阿里巴巴AI治理中心”视频号，B站搜“AAIG课代表”

通用人工智能（AGI）的实现或许只需几次常规性的技术突破与工程进展，而不依赖某个未来不确定何时到来的重大突破。然而，随着AI能力一步步逼近AGI，我们面临一个根本性挑战。当前，以大语言模型为代表的AI系统在安全验证方面存在明显短板。基于自然语言与强化学习的架构，使其验证机制既难以可靠运行，也难以扩展至复杂场景。正如Richard Sutton在2001指出的：AI仅能在能够自我验证的范围内创造与维持知识。

本次分享将从AGI的重新定义出发，剖析大语言模型的内在缺陷，并进一步探讨将生成式语言模型嵌入严格的形式系统之中的方法。该思路旨在使模型能够在形式化语言空间中运行，从而使其推理过程及结果具备自动化与可数学证明的可验证性，为实现安全的通用智能系统奠定基础。

💛【课程大纲】：

1、AGI的重新定义与安全挑战

2、当前大语言模型（LLM）的根本缺陷与安全瓶颈

3、一种可行的路径：形式化推理保障的AGI安全

付杰

上海人工智能实验室青年科学家，上海创智学院全时导师。曾在加拿大魁北克人工智能研究所（Mila）从事博士后研究，师从图灵奖得主Yoshua Bengio与美国 ServiceNow 公司杰出科学家Chris Pal。博士毕业于新加坡国立大学，导师为新加坡科学院院士Tat-Seng Chua。在Nature Biotechnology、ICML、ICLR、NeurIPS、ACL等顶级会议与期刊发表论文 80 余篇，获ICLR 2021与NAACL 2024杰出论文奖。目前研究方向聚焦于大语言模型、自动形式化推理、强化学习与安全AGI，致力于降低人类社会防御成本、提升整体抗风险能力。