- 简介大多数传统的AI安全研究将AI模型视为机器,并集中于由安全专家开发的算法攻击。随着大型语言模型(LLMs)变得越来越普遍和能力越来越强,非专业用户在日常交互中也可能造成风险。本文介绍了一种新的视角,将LLMs视为类似于人类的交流者,以探索日常语言交互和AI安全之间的被忽视的交集。具体而言,我们研究如何说服LLMs越狱。首先,我们提出了一个由几十年社会科学研究得出的说服分类法。然后,我们将分类法应用于自动生成可解释的说服性对抗提示(PAP)以越狱LLMs。结果表明,说服显著增加了各种风险类别的越狱性能:PAP在Llama 2-7b Chat、GPT-3.5和GPT-4上的攻击成功率在10次试验中始终超过92%,超过了最近的算法攻击。在防御方面,我们探讨了各种机制来对抗PAP,并发现现有防御措施存在显著差距,主张对高度互动的LLMs采取更基本的缓解措施。
- 解决问题如何利用社交科学研究中的说服分类法来破解大型语言模型(LLMs)并探索日常语言互动和人工智能安全之间的交集。
- 关键思路利用自动生成的可解释的说服性对抗提示(PAP)来破解LLMs,结果表明说服显著提高了破解性能,同时发现现有的防御机制存在显著缺陷。
- 其它亮点使用社交科学研究中的说服分类法来破解LLMs,提出自动生成的可解释的说服性对抗提示(PAP),在10次试验中,PAP在Llama 2-7b Chat、GPT-3.5和GPT-4上的攻击成功率均超过92%,超越了最近的算法攻击。实验设计合理,数据集包括Llama 2-7b Chat、GPT-3.5和GPT-4。
- 最近的相关研究包括“Exploring the Security of OpenAI Language Models in Safety Critical Scenarios”和“Adversarial Attacks on Large Language Models: A Case Study on GPT-2”。
沙发等你来抢
去评论
评论
沙发等你来抢