- 简介在构建大型语言模型(LLMs)时,必须牢记安全并为其设置保护措施。实际上,LLMs不应生成促进或规范有害、非法或不道德行为的内容,这可能会对个人或社会造成伤害。这个原则适用于正常和对抗性使用。为此,我们介绍了一个大规模基准测试——ALERT,它基于一种新颖的细粒度风险分类法,旨在通过红队方法评估LLMs的安全性。它包含超过45k个指令,按照我们的新分类法进行分类。通过将LLMs置于对抗测试场景中,ALERT旨在识别漏洞、提供改进意见并增强语言模型的整体安全性。此外,细粒度分类法使研究人员能够进行深入评估,也有助于评估与各种政策的一致性。在我们的实验中,我们广泛评估了10个流行的开源和闭源LLMs,并证明它们中的许多仍然难以达到合理的安全水平。
- 图表
- 解决问题论文旨在通过设计一种新的细粒度风险分类法,构建一个大规模的基准测试集ALERT,以评估大型语言模型的安全性,并通过对抗性测试场景来识别漏洞并提高语言模型的整体安全性。
- 关键思路论文提出了一种新的细粒度风险分类法,设计了一个大规模的基准测试集ALERT,通过对抗性测试场景来评估大型语言模型的安全性。
- 其它亮点论文通过对10个流行的开源和闭源大型语言模型的广泛评估,展示了许多模型仍然难以达到合理的安全水平。此外,ALERT基准测试集的细粒度分类法可以进行深入评估,帮助评估与各种政策的一致性。
- 近期的相关研究包括:《Language Models Are Few-Shot Learners》、《GPT-3: Language Models Are Few-Shot Learners》、《The GPT-2 117M Language Model Dataset》等。
沙发等你来抢
去评论
评论
沙发等你来抢