- 简介今年,我们目睹了大型语言模型的使用增加,尤其是与聊天机器人助手等应用程序相结合。为了防止这些助手做出不当回应,已经采取了安全机制和专门的培训程序。在这项工作中,我们通过让它们扮演与真实助手相反特征的复杂角色,绕过了ChatGPT和Bard(在某种程度上也包括Bing聊天)。我们首先创建这些角色的详细传记,然后在与相同聊天机器人的新会话中使用它们。我们的对话采用角色扮演的方式,以获得助手不允许提供的回应。通过使用角色扮演,我们展示了被禁止的回应实际上被提供了,从而可能获得未经授权、非法或有害的信息。这项工作表明,通过使用对抗性角色,可以克服ChatGPT和Bard设置的安全机制。它还介绍了几种激活这种对抗性角色的方法,总体上显示出两种聊天机器人都容易受到这种攻击的影响。
- 图表
- 解决问题使用对抗性角色扮演攻击ChatGPT和Bard聊天机器人的安全机制
- 关键思路通过创建复杂的虚拟人物角色,绕过ChatGPT和Bard聊天机器人的安全机制,获取被禁止的信息
- 其它亮点通过使用对抗性角色扮演,论文展示了聊天机器人的漏洞和脆弱性,为进一步研究提供了可能性
- 最近在这个领域中,还有一些相关的研究,如《Chatbot安全:综述与开放问题》和《使用生成对抗网络攻击聊天机器人》
沙发等你来抢
去评论
评论
沙发等你来抢