NEW

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

Nathaniel Li ,

Alexander Pan ,

Anjali Gopal ,

Summer Yue ,

Daniel Berrios ,

Alice Gatti ,

Justin D. Li ,

Ann-Kathrin Dombrowski ,

Shashwat Goel ,

Long Phan ,

Gabriel Mukobi ,

Nathan Helm-Burger ,

Rassin Lababidi ,

Lennart Justen ,

Andrew B. Liu ,

Michael Chen ,

Isabelle Barrass ,

Oliver Zhang ,

Xiaoyuan Zhu ,

Rishub Tamirisa ,

Bhrugu Bharathi ,

Adam Khoja ,

Zhenqi Zhao ,

Ariel Herbert-Voss ,

Cort B. Breuer ,

Samuel Marks ,

Oam Patel ,

Andy Zou ,

Mantas Mazeika ,

Zifan Wang ,

Palash Oswal ,

Weiran Liu ,

Adam A. Hunt ,

Justin Tienken-Harder ,

Kevin Y. Shih ,

Kemper Talley ,

John Guan ,

Russell Kaplan ,

Ian Steneker ,

David Campbell ,

Brad Jokubaitis ,

Alex Levinson ,

Jean Wang ,

William Qian ,

Kallol Krishna Karmakar ,

Steven Basart ,

Stephen Fitz ,

Mindy Levine ,

Ponnurangam Kumaraguru ,

Uday Tupakula ,

Vijay Varadharajan ,

Ruoyu Wang ,

Yan Shoshitaishvili ,

Jimmy Ba ,

Kevin M. Esvelt ,

Alexandr Wang ,

Dan Hendrycks

热度 776

2024年03月05日

简介

白宫关于人工智能的行政命令强调了大型语言模型（LLMs）赋予恶意行为者开发生物、网络和化学武器的风险。为了衡量这些恶意使用的风险，政府机构和主要的人工智能实验室正在开发评估LLMs中危险能力的方法。然而，目前的评估是私有的，阻止了进一步研究风险缓解的可能性。此外，它们只关注了少数高度特定的恶意使用途径。为了弥补这些差距，我们公开发布了大规模杀伤性武器代理（WMDP）基准测试，这是一个由3,668个多项选择问题组成的数据集，用作衡量生物安全、网络安全和化学安全中危险知识的代理测量。WMDP由学术和技术顾问联合会开发，并在公开发布之前进行了严格的过滤，以消除敏感信息。WMDP有两个作用：首先，作为LLMs中危险知识的评估，其次，作为去除此类危险知识的遗忘方法的基准。为了指导去除方法的进展，我们开发了RMU，这是一种基于控制模型表示的最先进的去除方法。RMU降低了模型在WMDP上的表现，同时保持了在生物学和计算机科学等领域的一般能力，这表明去除可能是减少LLMs恶意使用的具体途径。我们在https://wmdp.ai公开发布我们的基准测试和代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型中的恶意使用风险，提供一个公开的基准测试集，并探索一种新的去除恶意知识的方法。
关键思路

提供了一个公开的基准测试集WMDP，用于测量大型语言模型中的生物安全、网络安全和化学安全的危险知识。同时，提出了一种新的去除恶意知识的方法RMU，可以降低模型在WMDP上的表现，同时保持在生物学和计算机科学等领域的通用能力。
其它亮点

WMDP基准测试集由学术界和技术顾问联合开发，经过严格筛选以消除敏感信息。RMU方法基于控制模型表示，可以有效去除模型中的恶意知识。研究者公开了基准测试集和代码，方便其他研究者进行相关研究。
相关研究

最近的相关研究包括：《白宫关于人工智能的行政命令》、《大型语言模型的安全问题：现状和未来方向》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问