The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

2024年03月05日
  • 简介
    白宫关于人工智能的行政命令强调了大型语言模型(LLMs)赋予恶意行为者在生物、网络和化学武器开发方面的风险。为了衡量这些恶意使用的风险,政府机构和主要人工智能实验室正在开发评估LLMs中危险能力的方法。然而,目前的评估是私有的,阻碍了进一步研究减轻风险的方法。此外,它们仅关注少数高度特定的恶意使用途径。为了弥补这些空白,我们公开发布了大规模杀伤性武器代理(WMDP)基准测试,这是一个由3,668个多项选择题构成的数据集,用作生物安全、网络安全和化学安全中危险知识的代理测量。WMDP由一组学者和技术顾问开发,并在公开发布之前经过严格过滤以消除敏感信息。WMDP发挥了两个作用:首先,作为LLMs中危险知识的评估,其次,作为去学习方法的基准,以消除这种危险知识。为了指导去学习的进展,我们开发了RMU,这是一种基于控制模型表示的最先进的去学习方法。RMU降低了模型在WMDP上的性能,同时保持了在生物学和计算机科学等领域的一般能力,这表明去学习可能是减少LLMs恶意使用的具体途径。我们在https://wmdp.ai上公开发布了我们的基准测试和代码。
  • 图表
  • 解决问题
    评估大型语言模型中的危险知识,以减少恶意使用的风险。
  • 关键思路
    公开发布一个包含3,668个涉及生物安全、网络安全和化学安全的多项选择问题的数据集,称为WMDP基准测试,作为评估大型语言模型危险知识的工具。同时,提出了一种基于控制模型表示的卸载方法RMU,该方法可以减少模型在WMDP上的表现,同时保持在其他领域的表现。
  • 其它亮点
    WMDP基准测试是公开的,可以用于未来的研究。RMU方法可以降低模型在危险知识上的表现,为减少大型语言模型的恶意使用提供了新思路。
  • 相关研究
    最近的相关研究包括:《大型语言模型的风险评估》、《使用大型语言模型的安全性与隐私性问题》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论