XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models

解决问题:本文旨在解决大型语言模型在安全性和可用性之间的平衡问题,通过引入一个名为XSTest的测试套件来识别过度的安全行为。这是一个新问题,因为最近有证据表明,一些模型即使是明显安全的提示也会被拒绝,这可能会对模型的可用性产生负面影响。

关键思路:本文的关键思路是引入一个新的测试套件XSTest,以识别过度的安全行为。该测试套件由200个安全提示组成,模型应该不会拒绝遵守这些提示。相比当前领域的研究状况,本文的思路是新颖的,因为它提供了一种系统的方法来检测过度的安全行为,这可以帮助模型在安全性和可用性之间取得更好的平衡。

其他亮点:本文的实验设计基于XSTest测试套件,使用了最近发布的最先进的语言模型来展示系统性的失败模式。该测试套件可用于评估模型的安全性和可用性,并且可以用于进一步的研究。本文的作者来自多个机构,他们之前的代表作包括自然语言处理、机器学习、计算机视觉等领域的研究,这表明他们在人工智能领域有着广泛的研究背景和经验。

关于作者:本文的主要作者包括Paul Röttger、Hannah Rose Kirk、Bertie Vidgen、Giuseppe Attanasio、Federico Bianchi和Dirk Hovy。他们分别来自英国剑桥大学、牛津大学、意大利国家研究委员会、德国马普学会和美国加州大学洛杉矶分校。他们之前的代表作包括“Unsupervised Cross-Lingual Information Retrieval Using Monolingual Data Only”、“A Survey of Current Datasets for Vision-and-Language Research”等。

相关研究:近期其他相关的研究包括“Measuring and Improving Language Model Robustness on Grammatical Error Correction”(作者:Jingjing Xu、Xinze Xu、Chuanqiang Zhang、Jing Jiang,机构:Singapore Management University)、“Improving Robustness of Neural Machine Translation with Joint Textual and Phonetic Adversarial Attacks”(作者:Yingqiang Ge、Yu Zhou、Yong Cheng,机构:南京大学)等。

论文摘要:本文介绍了一种新的测试套件XSTest,用于结构化和系统化地识别大型语言模型中夸大的安全行为。如果没有适当的保障措施,大型语言模型将轻易地遵循恶意指令并生成有毒内容。这促使安全工作,如红队测试和大规模反馈学习,旨在使模型既有帮助又无害。然而,这两个目标之间存在紧张关系,因为无害性要求模型拒绝遵守不安全的提示,因此不会有帮助。最近的一些传闻证据表明,一些模型可能在这两个目标之间取得了不好的平衡,因此即使是明显安全的提示,如果使用类似于不安全提示的语言或提到敏感话题,也会被拒绝。XSTest目前包括10种提示类型的200个安全提示,良好校准的模型不应该拒绝遵守。我们描述了XSTest的创建和组成,并使用测试套件来突出最近发布的最先进的语言模型中的系统性故障模式。

内容中包含的图片若涉及版权问题,请及时与我们联系删除