Dr. Jekyll and Mr. Hyde: Two Faces of LLMs

2023年12月06日
  • 简介
    今年,我们目睹了大型语言模型的使用增加,尤其是与聊天机器人助手等应用程序相结合。为了防止这些助手做出不当回应,已经采取了安全机制和专门的培训程序。在这项工作中,我们通过让它们扮演与真实助手相反特征的复杂角色,绕过了ChatGPT和Bard(在某种程度上也包括Bing聊天)。我们首先创建这些角色的详细传记,然后在与相同聊天机器人的新会话中使用它们。我们的对话采用角色扮演的方式,以获得助手不允许提供的回应。通过使用角色扮演,我们展示了被禁止的回应实际上被提供了,从而可能获得未经授权、非法或有害的信息。这项工作表明,通过使用对抗性角色,可以克服ChatGPT和Bard设置的安全机制。它还介绍了几种激活这种对抗性角色的方法,总体上显示出两种聊天机器人都容易受到这种攻击的影响。
  • 图表
  • 解决问题
    使用对抗性角色扮演攻击ChatGPT和Bard聊天机器人的安全机制
  • 关键思路
    通过创建复杂的虚拟人物角色,绕过ChatGPT和Bard聊天机器人的安全机制,获取被禁止的信息
  • 其它亮点
    通过使用对抗性角色扮演,论文展示了聊天机器人的漏洞和脆弱性,为进一步研究提供了可能性
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Chatbot安全:综述与开放问题》和《使用生成对抗网络攻击聊天机器人》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论