The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

2024年03月05日
  • 简介
    白宫关于人工智能的行政命令强调了大型语言模型(LLMs)赋予恶意行为者开发生物、网络和化学武器的风险。为了衡量这些恶意使用的风险,政府机构和主要的人工智能实验室正在开发评估LLMs中危险能力的方法。然而,目前的评估是私有的,阻止了进一步研究风险缓解的可能性。此外,它们只关注了少数高度特定的恶意使用途径。为了弥补这些差距,我们公开发布了大规模杀伤性武器代理(WMDP)基准测试,这是一个由3,668个多项选择问题组成的数据集,用作衡量生物安全、网络安全和化学安全中危险知识的代理测量。WMDP由学术和技术顾问联合会开发,并在公开发布之前进行了严格的过滤,以消除敏感信息。WMDP有两个作用:首先,作为LLMs中危险知识的评估,其次,作为去除此类危险知识的遗忘方法的基准。为了指导去除方法的进展,我们开发了RMU,这是一种基于控制模型表示的最先进的去除方法。RMU降低了模型在WMDP上的表现,同时保持了在生物学和计算机科学等领域的一般能力,这表明去除可能是减少LLMs恶意使用的具体途径。我们在https://wmdp.ai公开发布我们的基准测试和代码。
  • 作者讲解
  • 图表
  • 解决问题
    评估大型语言模型中的恶意使用风险,提供一个公开的基准测试集,并探索一种新的去除恶意知识的方法。
  • 关键思路
    提供了一个公开的基准测试集WMDP,用于测量大型语言模型中的生物安全、网络安全和化学安全的危险知识。同时,提出了一种新的去除恶意知识的方法RMU,可以降低模型在WMDP上的表现,同时保持在生物学和计算机科学等领域的通用能力。
  • 其它亮点
    WMDP基准测试集由学术界和技术顾问联合开发,经过严格筛选以消除敏感信息。RMU方法基于控制模型表示,可以有效去除模型中的恶意知识。研究者公开了基准测试集和代码,方便其他研究者进行相关研究。
  • 相关研究
    最近的相关研究包括:《白宫关于人工智能的行政命令》、《大型语言模型的安全问题:现状和未来方向》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问