Optimization-based Prompt Injection Attack to LLM-as-a-Judge

简介

LLM-as-a-Judge是一种新颖的解决方案，可以利用大型语言模型（LLMs）评估文本信息。根据现有的研究，LLMs表现出了在提供替代传统人类评估的方面具有显著性能的能力。然而，这些系统对抗提示注入攻击的强韧性仍然是一个悬而未决的问题。在这项工作中，我们介绍了JudgeDeceiver，一种专门针对LLM-as-a-Judge的基于优化的提示注入攻击。我们的方法制定了一个精确的优化目标，用于攻击LLM-as-a-Judge的决策过程，并利用优化算法来高效自动地生成对抗序列，实现目标化和有效的模型评估操纵。与手工提示注入攻击相比，我们的方法表现出更高的效能，对基于LLM的判断系统的当前安全范式构成了重大挑战。通过广泛的实验，我们展示了JudgeDeceiver在各种情况下改变决策结果的能力，突出了LLM-as-a-Judge系统对基于优化的提示注入攻击的脆弱性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探究基于大语言模型的法官系统在面对优化型提示注入攻击时的鲁棒性问题。
关键思路

本文提出了一种基于优化的提示注入攻击方法，名为JudgeDeceiver，可针对LLM-as-a-Judge系统进行攻击，其目标是通过自动化生成对抗序列，实现有针对性和有效的模型评估操纵。相比手工制作的提示注入攻击，该方法表现出更高的攻击效率。
其它亮点

本文通过广泛的实验展示了JudgeDeceiver在不同案例中改变决策结果的能力，凸显了LLM-as-a-Judge系统对于优化型提示注入攻击的脆弱性。
相关研究

在相关研究方面，最近的研究主要集中在大语言模型的性能和应用方面，例如GPT-3和T5等模型的发展和优化。此外，还有一些研究探讨了大语言模型的安全性问题，如对抗性攻击和隐私问题等。

Optimization-based Prompt Injection Attack to LLM-as-a-Judge

提问交流

提问交流