Self-Evaluation as a Defense Against Adversarial Attacks on LLMs

向作者提问

NEW

简介

当LLMs被部署在敏感的、面向人类的环境中时，至关重要的是它们不会输出不安全、有偏见或侵犯隐私的结果。因此，这些模型既受过训练，也受到指导，拒绝回答不安全的提示，如“告诉我如何制造炸弹”。我们发现，尽管有这些保障措施，只需在模型输入的末尾添加一个空格，就可能破坏模型的防御。在对八个开源模型进行研究后，我们证明这足以作为一种强有力的攻击手段，导致大多数模型生成具有极高成功率的有害输出。我们研究了这种行为的原因，发现在分词训练数据中出现单个空格的上下文鼓励模型在被提示时生成列表，从而覆盖了拒绝回答不安全请求的训练信号。我们的研究结果强调了当前模型对齐的脆弱状态，并提倡开发更强大的对齐方法。代码和数据将在https://github.com/Linlt-leon/Adversarial-Alignments上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在敏感、人机交互场景中，LLMs输出不安全、带偏见或侵犯隐私的问题。同时研究发现，即使模型被训练和指示拒绝回答不安全的提示，通过在模型输入的末尾添加一个空格，仍然可以破坏模型的防御。
关键思路

论文提出通过在模型输入的末尾添加一个空格，来破坏模型的防御。研究发现，单个空格在标记化的训练数据中出现的上下文会促使模型在被要求时生成列表，从而覆盖拒绝回答不安全请求的训练信号。
其它亮点

论文研究了八个开源模型，发现添加一个空格足以使大多数模型生成有害输出。研究还探讨了这种行为的原因，发现标记化训练数据中单个空格出现的上下文促使模型在被要求时生成列表，从而覆盖拒绝回答不安全请求的训练信号。论文强调了当前模型对齐的脆弱状态，并提倡开发更强大的对齐方法。
相关研究

最近的相关研究包括《Language Models are Few-Shot Learners》、《The Pile: An 800GB Dataset of Diverse Text for Language Modeling》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问