💙 ChatGPT及其进化版GPT-4o在避免生成偏见和歧视内容上面临哪些挑战,以及如何努力克服它们?💙 表征工程是如何模仿人类大脑的功能,以理解和改善语言大模型的?💙 在进行表征工程时遇到的一些技术挑战和潜在的伦理问题是什么?
下周四(6月13日)19:00,《追AI的人》系列直播第40期邀请了复旦大学计算机科学技术学院副教授郑骁庆《基于表示工程的大模型攻击防御、高效微调与偏好对齐》。
直播详情
直播主题:《基于表示工程的大模型攻击防御、高效微调与偏好对齐》
直播时间: 2024年6月13日(周四)19:00
直播地点: 微信搜索“阿里巴巴AI治理中心”视频号,B站搜“AAIG课代表”。
议题简介
以ChatGPT为代表的生成式语言大模型的出现,已引发全球对人工智能技术的新一轮热潮。从其构建原理和过程来看,ChatGPT与其最新版本GPT-4o本质上仍是能够执行生成任务的机器学习模型,其天生会容易生成带有偏见、歧视和不符合伦理,甚至“幻觉”的内容,并且可能被滥用来获取不良信息或制造虚假内容等。最近兴起的表征工程(Representation Engineering)将大模型视为生物大脑,通过运用类似于功能性磁共振成像(fMRI)的技术来分析这些模型的激活模式,从而提高模型的安全性、可用性和可信性。在神经网络中,网络权重决定了隐层表征、隐层表征决定了网络输出、网络输出决定了网络行为。本报告将介绍如何通过识别大模型在生成不同质量回复时的网络隐藏层激活模式及其差异,然后利用这些差异来调整和控制模型的行为,从而实现攻击防御、高效微调和与人类偏好的对齐。
1.语言大模型的构建与训练
讲师简介郑骁庆,复旦大学计算机科学技术学院副教授、博士生导师,复旦大学自然语言处理实验室成员。主要研究方向为自然语言处理和机器学习。美国麻省理工学院International Faculty Fellow,加州大学洛杉矶分校访问研究员。最早将深度学习技术引入中文自然语言处理的学者之一,在CL、ICML、NeurIPS、ICLR、ACL、EMNLP等自然语言处理和人工智能领域的顶级国际会议和期刊发表论文数十篇。2016年获得吴文俊人工智能科学技术进步奖、2017年获得教育部技术发明奖、2018年获得日内瓦国际发明银奖、2021年入选了“高校计算机专业优秀教师奖励计划”。主持和参与多项国家自然科学基金、国家科技支撑计划重点项目、国家重点研发计划。
追AI的人是什么?《追AI的人》系列直播是一档由阿里巴巴人工智能治理与可持续发展研究中心(AAIG)联合高校和产业界发起的AI治理交互栏目。重点关注并分享人工智能新技术、AI治理新观点、可持续发展新风向。目前联合高校、律所等多家单位举办了39期直播,吸引全国超100万人次实时观看。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢