ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

简介

在构建大型语言模型（LLMs）时，必须牢记安全并保护它们。事实上，LLMs不应生成促进或规范有害、非法或不道德行为的内容，这可能会对个人或社会造成伤害。这个原则适用于正常和对抗性使用。为此，我们引入了ALERT，这是一个基于新颖的细粒度风险分类法来评估安全性的大规模基准测试。它旨在通过红队测试方法来评估LLMs的安全性，包括超过45,000个使用我们新颖分类法分类的指令。通过将LLMs置于对抗性测试场景中，ALERT旨在识别漏洞，提供改进意见并增强语言模型的整体安全性。此外，细粒度分类法使研究人员能够进行深入评估，也有助于评估与各种政策的一致性。在我们的实验中，我们广泛评估了10个流行的开源和闭源LLMs，并证明其中许多仍然难以达到合理的安全水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型的安全性，保护其不会生成有害、非法或不道德的内容，同时防止对抗攻击。
关键思路

引入一个基于细粒度风险分类的大规模基准测试 ALERT，通过对抗测试场景评估语言模型的安全性，识别漏洞和提高其整体安全性。
其它亮点

ALERT 包含超过45k个使用细粒度分类的指令，对10个流行的开源和闭源语言模型进行了广泛评估，并展示了许多模型仍然难以达到合理的安全水平。
相关研究

最近的相关研究包括：1.《GPT-3：语言模型的新里程碑》；2.《对抗攻击下的自然语言处理：综述》；3.《大规模语言模型的质量评估：现状与未来》。

ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

提问交流

提问交流