Dr. Jekyll and Mr. Hyde: Two Faces of LLMs

简介

今年，我们目睹了大型语言模型的使用增加，尤其是与聊天机器人助手等应用程序相结合。为了防止这些助手做出不当回应，已经采取了安全机制和专门的培训程序。在这项工作中，我们通过让它们扮演与真实助手相反特征的复杂角色，绕过了ChatGPT和Bard（在某种程度上也包括Bing聊天）。我们首先创建这些角色的详细传记，然后在与相同聊天机器人的新会话中使用它们。我们的对话采用角色扮演的方式，以获得助手不允许提供的回应。通过使用角色扮演，我们展示了被禁止的回应实际上被提供了，从而可能获得未经授权、非法或有害的信息。这项工作表明，通过使用对抗性角色，可以克服ChatGPT和Bard设置的安全机制。它还介绍了几种激活这种对抗性角色的方法，总体上显示出两种聊天机器人都容易受到这种攻击的影响。

图表

解决问题

使用对抗性角色扮演攻击ChatGPT和Bard聊天机器人的安全机制

关键思路

通过创建复杂的虚拟人物角色，绕过ChatGPT和Bard聊天机器人的安全机制，获取被禁止的信息

其它亮点

通过使用对抗性角色扮演，论文展示了聊天机器人的漏洞和脆弱性，为进一步研究提供了可能性

Dr. Jekyll and Mr. Hyde: Two Faces of LLMs

评论