- 简介大型语言模型(LLMs)广泛应用于各种高风险领域,其中其输出的可靠性至关重要。评估LLMs响应可靠性的一种常用方法是不确定性估计,它衡量它们的答案正确的可能性。虽然许多研究关注提高LLMs不确定性估计的准确性,但我们的研究调查了不确定性估计的脆弱性并探索了潜在的攻击。我们证明了攻击者可以在LLMs中嵌入后门,当输入中的特定触发器激活时,可以操纵模型的不确定性而不影响最终输出。具体而言,所提出的后门攻击方法可以改变LLM的输出概率分布,使概率分布收敛到攻击者预定义的分布,同时确保前1个预测保持不变。我们的实验结果表明,这种攻击有效地破坏了模型在多项选择问题中的自我评估可靠性。例如,在四个模型中的三种不同触发策略中,我们实现了100%的攻击成功率(ASR)。此外,我们还研究了这种操纵是否适用于不同的提示和领域。这项工作突显了LLMs可靠性的重大威胁,并强调了未来需要对此类攻击进行防御的必要性。代码可在https://github.com/qcznlp/uncertainty_attack 上获得。
- 图表
- 解决问题本文旨在探讨大型语言模型(LLMs)的不确定性估计的脆弱性并探索潜在攻击。研究人员发现攻击者可以在LLMs中嵌入后门,通过特定的触发器激活,从而操纵模型的不确定性而不影响最终输出。
- 关键思路本文提出一种后门攻击方法,可以改变LLMs的输出概率分布,使概率分布收敛到攻击者预定义的分布,同时确保前1个预测结果不变。
- 其它亮点实验结果表明,该攻击有效地破坏了模型在多项选择问题中的自我评估可靠性。此外,研究人员还探讨了这种操纵是否适用于不同的提示和领域。研究人员开源了代码,可在GitHub上获取。
- 最近在这个领域中,还有一些相关的研究。例如,有研究关注提高LLMs的不确定性估计的准确性,但本文则是对不确定性估计的脆弱性进行了探究,并提出了一种新的攻击方法。
沙发等你来抢
去评论
评论
沙发等你来抢