导语


分享大纲
分享大纲
AGI安全视角下的对抗鲁棒性
对抗鲁棒性问题及难点
促进对抗鲁棒性的最佳方法及缺陷
推动对抗鲁棒性领域向前发展的潜在方法
推理时对齐及其风险
背景
训练时对齐: RLHF, DPO
推理时对齐: EFT, ARGS
反向的推理时对齐: ED
分享议程
Tony Wang - 40 mins talk + Q&A
周展辉 - 40 mins talk + Q&A
杨超 主持 圆桌讨论 - 30 mins
主讲人介绍
主讲人介绍


主持人介绍
主持人介绍

主要涉及到的前置知识
主要涉及到的前置知识
基于人类反馈的强化学习(RLHF)
涉及到的参考文献
涉及到的参考文献
[1] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision. OpenAI Superalignment.
[2] EFT: An Emulator for Fine-Tuning Large Language Models using Small Language Models. Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning.Arxiv
[3] Weak-to-Strong Jailbreaking on Large Language Models. arXiv:2401.17256
[4] Emulated Disalignment: Safety Alignment for Large Language Models May Backfire. Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang et al. arXiv:2402.12343.
直播信息
直播信息

报名成为主讲人
报名成为主讲人
大模型安全与对齐读书会
大模型的狂飙突进唤醒了人们对AI技术的热情和憧憬,也引发了对AI技术本身存在的社会伦理风险及其对人类生存构成的潜在威胁的普遍担忧。在此背景下,AI安全与对齐得到广泛关注,这是一个致力于让AI造福人类,避免AI模型失控或被滥用而导致灾难性后果的研究方向。集智俱乐部和安远AI联合举办「大模型安全与对齐」读书会,由多位海内外一线研究者联合发起,旨在深入探讨大模型安全与对齐所涉及的核心技术、理论架构、解决路径以及安全治理等交叉课题。


点击“阅读原文”,报名读书会
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢