- 简介我们提出了两个关于基础模型越狱的悖论:第一,无法构建完美的越狱分类器;第二,一个较弱的模型不能一致地检测出一个更强的(在帕累托支配意义下)模型是否被越狱。我们提供了这些悖论的正式证明,并通过Llama和GPT4-o的短期案例研究进行了演示。我们讨论了这些结果的更广泛的理论和实际后果。
- 图表
- 解决问题本文探讨了关于基础模型越狱的两个悖论,即无法构建完美的越狱分类器,以及较弱的模型无法一致地检测到较强的(在帕累托支配意义下)模型是否越狱。文中提供了正式证明和关于Llama和GPT4-o的案例研究。
- 关键思路本文提出了基础模型越狱的两个悖论,并提供了正式证明。这些悖论表明,当前无法构建完美的越狱分类器,并且较弱的模型无法一致地检测到较强的模型是否越狱。
- 其它亮点本文的案例研究使用了Llama和GPT4-o,并提供了正式证明。这些悖论的存在具有重要的理论和实际意义。值得关注的是,本文提出的这些悖论对基础模型越狱领域的研究具有启发意义。
- 在这个领域中,最近的相关研究包括《基于对抗训练的模型越狱检测》和《基于深度学习的模型越狱检测方法》等。


提问交流