目前的大型语言模型(LLMs),即使是针对安全和对齐性进行调整的模型,也容易被越狱。一些人发现,仅仅使用良性数据(即没有有害内容的数据)对齐模型进行进一步微调,竟然会导致安全性大幅度降低。我们深入探讨了为什么良性微调会无意中导致越狱的数据中心方面。首先,我们通过两个视角来表示微调数据:表示和梯度空间。此外,我们提出了一种双向锚定方法,该方法优先考虑与有害示例接近而与良性示例远离的数据点。通过这样做,我们的方法有效地识别出更有可能在微调后降低模型安全性的良性数据子集。仅使用这些看似良性的100个数据点进行训练,就可以使微调模型对> 70%的测试有害请求做出肯定回应,而在随机选择数据进行微调后,这个数字为<20%。我们还发现,所选数据通常以列表和项目符号或数学问题的形式出现。