- 清华大学交叉信息研究院-


姚班校友/即将回归教师

荣获ICLR 2025“杰出论文奖”



近日,由清华大学姚班2019届校友吕凯风与合作者共同完成的研究“Safety Alignment Should be Made More Than Just a Few Tokens Deep”在深度学习领域国际顶级会议ICLR(International Conference on Learning Representations)上荣获2025年“杰出论文奖”。 

吕凯风本科毕业于清华大学姚班,从普林斯顿大学博士毕业后,在加州大学伯克利分校 Simons Institute 从事博士后研究工作。他今年6月将回归清华交叉信息院,担任助理教授。



该研究指出,当前大语言模型(LLM)的安全对齐存在脆弱性。简单的攻击,甚至是看似无害的微调,都可能突破对齐约束(即“越狱模型)。研究者注意到,许多这类脆弱性问题源于一个共同的底层缺陷:现有对齐机制往往采取捷径,即仅在模型生成的最初几个输出 token 上进行调整。研究者将此类现象统一称为“浅层安全对齐(shallow safety alignment)

研究者通过若干案例分析,解释浅层安全对齐为何会存在,并揭示其如何普遍性地贡献于近年来发现的多种 LLM 脆弱性,包括对于对抗性后缀攻击(adversarial suffix attacks)、预填充攻击(prefilling attacks)、解码参数攻击(decoding parameter attacks)和微调攻击(fine-tuning attacks)的易感性。

该研究的核心贡献在于,研究者提出“浅层安全对齐的统一概念,为缓解上述安全问题指明了有前景的研究方向。研究者展示,通过将安全对齐机制延伸至超出最初数个 token 的范围,能在一定程度上增强模型对常见攻击方式的鲁棒性。此外,研究者还设计了一种带正则项的微调目标函数(regularized fine-tuning objective),通过对初始 token 的更新施加约束,使得模型的安全对齐对微调攻击更具持久性。

总体而言,研究者主张:未来的大语言模型安全对齐策略,应当实现一种更深层次的对齐,其深度不应仅仅局限在前几个初始token上。




图文 | 姜月亮 

编辑 | 吕厦敏 

审核 | 马雄峰 

内容中包含的图片若涉及版权问题,请及时与我们联系删除