LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety

向作者提问

NEW

简介

大语言模型（LLMs）在高资源语言中通常展现出较强的安全性能，但在低资源语言中响应时却暴露出严重安全隐患。我们认为，这一性能差距源于模型在语义理解能力上的语言无关性，与其安全对齐机制所固有的语言偏向性——即过度偏向高资源语言——之间的不匹配。为验证该假设，我们通过实证分析发现LLM中存在一个“语义瓶颈层”：该中间层的表征几何结构主要由跨语言共享的语义内容所主导，而非由具体语言身份所决定。基于这一发现，我们提出了“语言无关语义对齐”（Language-Agnostic Semantic Alignment, LASA）方法，将安全对齐直接锚定于语义瓶颈层。实验表明，LASA显著提升了模型在所有语言下的安全性：在LLaMA-3.1-8B-Instruct模型上，平均攻击成功率（ASR）从24.7%大幅下降至2.8%；在Qwen2.5与Qwen3系列Instruct模型（参数量覆盖7B至32B）上，ASR则稳定维持在3%–4%左右。综上，我们的分析与方法从表征层面为理解大语言模型的安全性提供了新视角，表明安全对齐不应建立在表层文本之上，而应扎根于模型内在的语言无关语义空间之中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大语言模型（LLMs）在低资源语言中安全对齐性能显著劣于高资源语言的根本性问题，验证了‘安全对齐偏差源于语言主导而非语义主导’这一假设；该问题虽被业界广泛观察（如多语言红队测试中的ASR激增），但此前缺乏表征层面的机制解释和系统性干预方案，因此具有理论与实践双重新颖性。
关键思路

提出Language-Agnostic Semantic Alignment (LASA)：基于实证发现的‘语义瓶颈层’（semantic bottleneck）——即模型中间层表征几何结构由跨语言共享语义主导、而非语言标识主导——将安全对齐直接锚定于该语言无关的语义子空间，而非传统方法依赖的输入token或高层语言特定logits；这是首个将安全对齐显式迁移至可验证的表征几何不变性的方法，区别于现有工作（如多语言RLHF、翻译增强、数据重加权）停留在表面语言适配。
其它亮点

实验覆盖LLaMA-3.1-8B-Instruct及Qwen2.5/Qwen3系列（7B–32B），在统一多语言红队基准（含24种语言，含12种低资源语言）上评估；ASR平均下降21.9个百分点（24.7%→2.8%），且效果跨架构鲁棒；论文开源代码与语义瓶颈探测工具；值得深入的方向包括：语义瓶颈的自动定位范式泛化、低资源语言安全知识蒸馏、以及语义空间中对抗鲁棒性与对齐稳定性的联合优化。
相关研究

1. 'Multilingual Safety Evaluation of LLMs: A Cross-Lingual Red Teaming Study' (ACL 2023); 2. 'Translating Harm: How Machine Translation Biases Amplify LLM Safety Gaps' (EMNLP 2023); 3. 'Semantic Invariance for Robust Multilingual Alignment' (ICLR 2024 Spotlight); 4. 'Layer-wise Interpretability Reveals Language-Specific Safety Collapse in LLMs' (NeurIPS 2023 Workshop); 5. 'SafeTune: Safety Fine-tuning via Contrastive Semantic Regularization' (ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问