
导语


内容简介
内容简介
AI系统有哪些不应该被研发的危险能力?AI系统的使用和部署有哪些不该被触及的底线?当前安全和对齐的方法对于降低风险还存在什么样的挑战?来自安远AI的段雅文将对大模型安全与对齐读书会的内容进行回顾与总结,苏黎世联邦理工学院计算机系在读博士生陈欣主要分享人工智能安全国际对话与人工智能风险红线宣言,上海交通大学在读博士生陈奕群会围绕 AI 欺骗(Deception)能力介绍其挑战与应对方向。随后连同沈田浩、吉嘉铭、刘东瑞、任麒冰等学者以圆桌论坛的形式共同展开AI风险红线共识声明的探讨。
分享大纲
分享大纲
大模型安全与对齐读书会回顾与总结(段雅文, 5 mins)
人工智能安全国际对话与人工智能风险红线宣言(陈欣,5-10 mins)
人工智能安全国际对话
Ditchley宣言
北京宣言
AI 欺骗(Deception)能力红线的挑战与应对(陈奕群,5-10 mins)
Honesty
Incosistency
Deception
圆桌讨论(沈田浩、吉嘉铭、刘东瑞、任麒冰)
AI系统有哪些不应该被研发的危险能力?
AI系统的部署使用有哪些不该被触及的底线?
当前安全和对齐的方法对于降低风险存在什么样的进步空间?
主要涉及到的前置知识
主要涉及到的前置知识
AI Alignment
AI Safety
AI Honesty
主讲人介绍
主讲人介绍


圆桌嘉宾介绍
圆桌嘉宾介绍




主持人介绍
主持人介绍

涉及到的参考文献
涉及到的参考文献
Wei J, Huang D, Lu Y, et al. Simple synthetic data reduces sycophancy in large language models[J]. arXiv preprint arXiv:2308.03958, 2023.
Park P S, Goldstein S, O'Gara A, et al. AI deception: A survey of examples, risks, and potential solutions[J]. arXiv preprint arXiv:2308.14752, 2023.
Joshi N, Rando J, Saparov A, et al. Personas as a way to model truthfulness in language models[J]. arXiv preprint arXiv:2310.18168, 2023.
Pacchiardi L, Chan A J, Mindermann S, et al. How to catch an ai liar: Lie detection in black-box llms by asking unrelated questions[J]. arXiv preprint arXiv:2309.15840, 2023.
直播信息
直播信息

报名成为主讲人
报名成为主讲人
大模型安全与对齐读书会
大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬,也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下,AI安全与对齐得到广泛关注,这是一个致力于让AI造福人类,避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会,由多位海内外一线研究者联合发起,旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。


点击“阅读原文”,报名读书会
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢