The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

2024年03月05日
  • 简介
    白宫关于人工智能的行政命令强调了大型语言模型(LLMs)赋予恶意行为开发生物、网络和化学武器的风险。为了衡量这些恶意使用的风险,政府机构和主要的人工智能实验室正在开发评估LLMs的危险能力。然而,当前的评估是私有的,阻止了进一步研究减轻风险。此外,它们仅关注了一些高度特定的恶意使用途径。为了填补这些空白,我们公开发布了大规模杀伤性武器代理(WMDP)基准测试,这是一个包含3668个多项选择题的数据集,用作生物安全、网络安全和化学安全方面的危险知识的代理测量。WMDP由一组学者和技术顾问开发,并在公开发布之前经过严格过滤以消除敏感信息。WMDP发挥了两个作用:首先,作为对LLMs中危险知识的评估,其次,作为去除这种危险知识的遗忘方法的基准。为了指导去除危险知识的进展,我们开发了RMU,这是一种基于控制模型表示的最先进的遗忘方法。RMU降低了模型在WMDP上的表现,同时保持了生物学和计算机科学等领域的一般能力,这表明遗忘可能是减少LLMs恶意使用的一个具体途径。我们在https://wmdp.ai上公开发布我们的基准测试和代码。
  • 图表
  • 解决问题
    评估大型语言模型中的恶意使用风险
  • 关键思路
    公开发布Weapons of Mass Destruction Proxy (WMDP)基准数据集,用于评估大型语言模型中的生物安全、网络安全和化学安全等领域的危险知识,并提出基于控制模型表示的卸载方法RMU,可以降低模型在WMDP上的性能,同时保持在生物学和计算机科学等领域的通用能力
  • 其它亮点
    WMDP数据集由学术界和技术顾问联合开发,经过严格过滤以消除敏感信息,并公开发布。RMU是一种最先进的卸载方法,可以通过控制模型表示来降低模型在WMDP上的性能。该论文的研究成果可用于评估和减少大型语言模型中的恶意使用风险。
  • 相关研究
    最近的相关研究包括《白宫关于人工智能的行政命令》,该命令强调了大型语言模型在恶意使用方面的风险,并呼吁开发评估危险能力的基准数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论