

本期热点讨论



PART 1


徐子文《揭秘大模型Steering:
从底层机理到系统评估,全面破解大模型行为控制之谜》

不重新训练,仅靠「轻推一把」就能改变大模型的「信念」与行为 ——Steering 正在成为大模型时代最重要的认知控制手段之一。
近期《Science》发表的研究《Toward universal steering and monitoring of AI models》表明,通过解析AI内部表征,可实现对模型行为的通用引导与监控。当 AI 越来越强大,如何确保它们的行为可控可预测,已经成为一个关乎安全与信任的核心议题。
浙大联合阿里的两篇ACL 2026主会论文,从运行机理、系统评估两大维度全面揭示了Steering的工作原理与能力边界,并赋能阿里安全 AGI 实验室御风大模型训练和落地过程;同时,浙大团队开源的一站式 Steering 框架 EasyEdit2,让这一切触手可及。从「为什么有效」到「有效到什么程度」再到「如何轻松上手」,三项工作全面展示了 Steering 的价值。
什么是 Steering?给大模型装一个「方向盘」
想象你正在驾驶一辆高性能的跑车。驾驶员(你)通过方向盘很容易就能调整车的行驶方向,只需要轻轻转动几度,整个几吨重的汽车就改变了方向。但如果你想改变发动机的工作方式呢?比如让它在高速时更省油,或者在爬坡时更有力?那可能就需要修改发动机了。
大语言模型也面临类似的问题:怎样让大模型按照我们的意图行动,而不需要「拆开发动机」重新训练?
Steering(行为引导) 就是答案。它指的是在模型推理阶段,对模型内部表示或激活进行即时调控,以引导模型输出符合预期目标。简单来说,就像给大模型装上了一个「方向盘」—— 轻轻一转,模型就能改变输出方向。
Steering 的应用非常广泛:改变模型的人格或情绪倾向、强化安全策略、调整语言风格,甚至控制推理策略和知识编辑等等。本质上,Steering是在塑造AI的「信念」与「认知倾向」。就像人类社会中,教育和文化塑造了一个人的价值观和行为方式,Steering则是在重新塑造 AI 的「价值观」和行为模式。

举个例子,模型原始回答冷冰冰,Steering 之后模型立刻可以变得热情洋溢。不改变模型原有知识与能力,按需塑造输出风格与行为倾向——这就是 Steering 的魅力。
但关键问题来了:
为什么 Steering 能起作用?模型内部到底发生了什么?
Steering 的能力边界在哪儿?什么时候有效,什么时候失效?如何系统评估?
浙大联合阿里的两篇论文,正是为了回答这两个核心问题。
第一篇:为什么 Steering 能起作用?统一的机理解释

论文链接:https://arxiv.org/pdf/2602.02343
五花八门的方法,背后有统一的原理吗?
目前 Steering 方法可谓百花齐放 —— 有的修改前馈层参数,有的用低秩分解(LoRA),有的在各处激活上进行干预。这些方法看似完全不同,但都能起作用。
这就像不同的医生用不同的药治同一种病,都能治好。那背后一定有某种共同的机制——找到这个机制,就是这篇论文的目标。
核心发现一:统一视角 —— 殊途同归的动态权重更新
作者发现,无论是局部参数微调、LoRA 低秩更新,还是推理阶段的激活干预,这些方法都可以被理解为:
在模型前向传播过程中,对模型线性层权重进行动态更新,从而改变激活表示及其演化轨迹。
不同控制方法的核心差异,仅在于扰动注入的位置、幅度和干预形式,而非作用机理本身。

如图所示,任意线性层中:局部权重更新对应权重矩阵的调整,LoRA 对权重进行低秩更新,激活干预则对应偏置项的调整。所有干预均可通过控制强度系数来调节强度,形式上可统一表示为:

核心发现二:三阶段规律 ——Steering 不是越强越好
通过大量实验发现,当逐步增大 Steering 强度时,模型行为会呈现出高度一致的三阶段变化:
1. 线性可控区间:温柔的引导
Steering 强度较小时,模型偏好近似线性变化,效用基本保持稳定;
就像轻转方向盘,车平稳地改变方向。
2. 过渡区间:开始不稳定
强度进一步增大,偏好变化偏离线性,效用出现波动;
方向盘转得有点猛,方向一步到位,但车开始晃。
3. 非线性崩塌区间:用力过猛
超过临界点后,偏好与效用同时崩塌,模型输出质量急剧下降;
方向盘打死了,车直接失控。

关键启示:Steering 存在一个「最优权衡区间」。 控制效果并非越强越好,找到最优强度才是关键。
核心发现三:激活流形假设 —— 揭示深层机理
为什么不同方法会表现出相同的三阶段规律?要回答这个问题,先要谈一个重要背景。
此前,大模型 Steering 领域的一个主流假设是线性表征假说(Linear Representation Hypothesis),它认为高层概念在模型的表征空间中以线性方向编码。这也是 Steering 向量能够起作用的直觉解释 —— 找到一个概念对应的方向,沿该方向推动激活,就能引导模型行为。
然而,线性假说只能解释「为什么能引导」,却无法解释「为什么会崩塌」。 而且越来越多的研究表明,线性假设并不充分。
在这一背景下,作者引入了更进一步的解释——激活流形假设(Activation Manifold Hypothesis):
在预训练与指令微调过程中,语言模型的有效激活状态并非分布在整个高维空间中,而是集中在一个低维、连续且结构化的「激活流形」附近。
可以说,线性假设是流形假设的局部近似,而流形假设揭示了更完整的图景。
打个比方:大模型的「思考过程」发生在一个复杂的地形上,这个地形有山峰、山谷、通道。Steering 不是随意改变地形或原地起飞,而是让模型沿着地形上的「轨道」行走:轻推一把,模型沿轨道平稳移动(线性可控);推过头了,模型被推离轨道,「脱轨」就崩塌了。

这一假设为后续的控制现象提供了几何层面的解释。
弱 Steering:模型在流形上小幅移动,行为可控;
中等 Steering:模型沿流形方向走到最优点,效果最好;
强 Steering:模型被推离流形,「脱轨」导致崩塌。
在激活流形假设下,这些不同控制方法呈现相似规律并不意外:
它们本质上都在沿某一方向推动激活状态;
只要推动方向在期望行为方向上存在投影,期望行为随着缩放系数变化近似线性;
与此同时,推动方向或幅度使激活脱离流形,导致激活有效性衰减,非线性退化不可避免。
这为不同控制方法的共性行为,提供了统一的机制解释。
有趣的是,神经科学领域也有类似发现:人脑的神经群体活动同样存在集中在低维流形的现象,而非利用所有可能的神经状态。大模型与生物神经网络在这一点上的相似性,颇为耐人寻味。
在该假设基础上,作者进一步将「激活脱离流形后有效性全局衰减」这一机制形式化,提出了有效性衰减公式,并将其融入 Steering 强度与模型行为的关系建模中,成功拟合了三阶段变化规律,具体细节详见论文。
从理论到实践:SPLIT 方法
基于上述机理,作者提出了SPLIT方法。训练目标由效用损失(保持模型能力)和偏好损失(增强目标行为倾向)两部分组成。核心思想是在增强偏好的同时,延缓激活脱离流形所导致的非线性崩塌,从而扩展线性可控区间的范围。

实验表明,SPLIT 在多个模型(Gemma、Qwen 等)和多个任务上均表现出色,有效扩展了可控区间。
第二篇:大模型到底有多可控?首个 Steering 系统评估框架

论文链接:https://arxiv.org/pdf/2603.02578
第一篇论文解释了「为什么 Steering 能工作」。但紧接着一个更实际的问题浮出水面:在真实场景中,Steering到底有多好用?它的能力边界在哪儿?
为什么需要更全面系统的评估?
以往的研究往往只在单一任务或单一粒度上测试 Steering。有人说「我用 Steering 改了模型性格」,有人说「我用 Steering 提升了安全性」—— 但改了多少?在什么条件下有效?换个场景还行不行?
没有统一的评估标准,就无法真正理解Steering的能力和局限。
SteerEval 框架:多领域 × 三粒度的评估体系和自动化基准数据合成框架

作者提出了SteerEval框架,从多个行为领域和三个粒度层级全面评估大模型的可控性。
多个行为领域:
Personality(人格特征):能否让模型稳定表现出特定「人设」?如更友善、更谨慎、更直率;
Sentiment(情感倾向):能否精确控制模型的情感色彩?如从积极到消极的细粒度调控;
Language Features(语言特征):能否改变模型的表达方式?如正式 / 口语 / 学术风格的切换;
......
三个粒度层级(借鉴神经科学家 David Marr 的三层分析框架):
Marr 在上世纪 80 年代提出,理解任何信息处理系统(包括人脑)都应从三个层级入手:计算目标是什么、用什么算法实现、具体如何执行。
作者将这一经典框架巧妙地移植到 LLM 行为评估中,定义了三层行为粒度:
L1: Computational Level(表达什么)
行为目标 / 意图层级,如「表现出热情」
L2: Algorithmic Level(如何表达)
行为策略与模式层级,如「使用主动语态和充满活力的赞美」
L3: Implementational Level(如何实例化)
具体文本实现层级,如「必须包含两次 'hooray'」
打个比方:核心目标是让模型「更友善」——L1 看它是不是整体都变友善了,L2 看它是通过什么方式表现友善的,L3 看它在每一句具体回复中是否使用了指定用词表现友善。
整个基准包含7560条数据,涵盖多个主流大模型。
关键发现:粒度越细,控制越难

Steering 的控制能力随着粒度细化而显著衰减!
在宏观层面(L1),Steering 效果很好,甚至能优于基于提示的方法;
到了中观层面(L2),开始有损失;
到了微观层面(L3),效果明显下降。
这意味着什么? 你让模型「变友善」这种粗粒度目标很容易实现。但如果你想让模型「用『您好』表达友善」,那就很难做到了。
这个发现的意义在于:
Steering 在宏观层面相当可靠,可以放心用于粗粒度的行为控制;
但细粒度的精确控制仍是当前方法的瓶颈,也是未来研究的重要方向;
实际应用中需要根据场景选择合适的控制粒度。
工具赋能:EasyEdit2—— 一站式 Steering 开源框架
上述两篇论文的所有实验,均基于浙大团队此前开源的EasyEdit2框架实现。
开源工具链接:https://github.com/zjunlp/EasyEdit/blob/main/README_2.md
EasyEdit2 是一个专为大模型行为控制设计的开源工具框架,核心特点包括:
即插即用:无需改动模型源代码,支持 LLaMA、Mistral 等主流大模型;
方法全面:集成了多种 Steering 方法(激活干预、LoRA、SPLIT 等);
评估内置:集成 SteerEval 评估体系,从向量生成到效果验证的完整链路;
向量库:提供预训练的 Steering 向量,开箱即用。
两篇论文与 EasyEdit2 形成了一个完整的研究闭环:机理论文提供理论基础 → EasyEdit2 提供实现工具 → 评估论文验证能力边界。
无论是想复现上述工作,还是想在自己的项目中实验 Steering,EasyEdit2 都是最直接的起点。
总结与展望
本文介绍了浙大联合阿里在大模型 Steering 方向的两项系统性工作:
机理层面:首次提出统一视角,揭示了不同 Steering 方法的共性机制(动态权重更新 → 三阶段规律 → 激活流形假设),并提出 SPLIT 方法扩展可控区间;
评估层面:构建了首个多维度、多粒度的 Steering 评估框架 SteerEval,发现了「控制衰减」现象,为 Steering 研究提供了统一的评估标准;
工具层面:开源框架 EasyEdit2 让 Steering 的实验与应用触手可及。
随着 AI 能力的持续增强,如何确保其行为可控、可预测、可信赖,已不仅是技术问题,更关乎安全与治理。
Steering 本质上是对 AI「认知」与「信念」的精准调控 —— 掌握这种控制能力,将是保障 AI 安全对齐的关键一环。
PART 2


徐皓雷《大模型为何“视而不思”?浙大×阿里揭秘MoE分心机制》

Mixture-of-Experts(MoE)架构已成为当前大规模视觉-语言模型的主流范式。通过稀疏激活机制,MoE 模型在保持计算效率的同时,能够处理视觉与文本信息之间复杂的交互关系。
然而,研究团队在实验中发现了一个令人困惑的现象:将一道小学数学题以图片形式输入模型时,模型能够准确识别图中所有数字和文字内容,却给出了错误答案;而将完全相同的题目以纯文本形式输入时,模型则能轻松得出正确结果。

研究团队将这一现象命名为“Seeing but Not Thinking”(视而不思)——模型感知无误,推理却出了问题。


问题量化
为排除感知误差的干扰,研究团队基于 MATH500 数据集构建了受控实验:将纯文本数学题渲染为高分辨率图像,并对"文本版本答对、图像版本答错"的样本进行错误归因分析。
结果显示,68.2%–73.1% 的失败案例源于推理错误,仅有 26.9%–31.8% 归因于感知错误。这一数据证实,视觉输入本身会损害模型的推理能力,即便内容已被正确感知。


核心分析:路由分心假说

2.1 MoE 的跨模态语义共享
在分析路由分心现象之前,研究团队首先考察了 MoE 架构中是否存在跨模态语义共享——这一性质在稠密架构的视觉语言模型中已有文献记录,但在 MoE 架构中尚未得到验证。
为此,研究团队设计了跨模态概念干预实验:在算术补全任务中,从纯文本输入中提取源数字和目标数字的隐状态向量,再将其注入图像 token 的隐状态中,观察模型输出是否随之改变。

实验结果呈现出清晰的倒 U 型曲线:早期层干预成功率低,说明视觉特征尚未与文本语义空间对齐。
中间层(第 8–42 层)成功率超过 90%,表明两种模态在此区域实现了充分的语义共享;末尾层成功率再次下降,可能是因为模型此时已确定了输出分布。
这一结果确认了 MoE 架构同样具备跨模态语义共享能力,与稠密架构中的已有发现一致。
由此研究团队认为跨模态语义对齐可能并非 Seeing but Not Thinking 现象的唯一解释,进而探索 MoE 架构所特有的其他因素。

2.2 专家特化的层间分布
研究团队进一步分析了不同类型专家在各层的分布情况,以及专家功能特化的程度。
首先,研究团队使用基尼系数衡量各层的专家特化程度。结果显示,早期层基尼系数较低,中间层和末尾层基尼系数明显升高,说明专家的功能特化随层深度增加而增强。
在此基础上,通过比较领域数据(GSM8K)与通用数据(Alpaca)上的专家激活频率差异,可以定位负责数学推理的“领域专家”。
类似地,将 Alpaca 文本渲染为图像后,与文本版本的激活差异可定位"视觉专家"。
结果揭示了一个关键的结构性特征:
视觉专家集中在早期层(负责初始视觉编码)
领域专家集中在中间层,与跨模态语义共享的区域高度重合
两类专家在中间层几乎没有重叠
这一层间分离引出了一个自然的问题:在处理视觉输入时,中间层的路由机制是否能够充分激活推理所需的领域专家?

2.3 路由分歧与推理精度的相关性
为直接度量视觉输入如何改变专家选择,研究团队基于 MATH500 数据集构建了语义等价的文本与图像版本,通过 Jensen-Shannon 散度(JSD)量化两种模态在语义等价前提下各层的路由分歧:

三个视觉复杂度递增的图像版本(v1/v2/v3)揭示了两个关键发现:
第一,JSD 整体呈 U 型分布,中间层分歧最小;
第二,三个版本的曲线在中间层(第 6–42 层)出现分化,视觉复杂度越高,中间层分歧越大。
更重要的是,中间层路由分歧越大,推理精度越低:v1/v2/v3 分别对应 89.0%/88.2%/87.4%,而语义等价的纯文本版本达到 92.8%。
三个版本的感知错误率相近,因此这一精度差异主要源于推理能力的下降,而非感知质量的差异。

综合以上三步分析,研究团队提出路由分心假说:
在处理视觉输入时,MoE 的路由机制未能在中间层充分激活任务相关的领域专家,而是将计算分配给了其他不适合推理的专家。
视觉模态本身并不损害模型的推理能力,但导致了次优的专家选择,使领域推理能力无法被充分调用。

路由引导实验
基于路由分心假说,一个自然的验证思路是:在推理时显式增强领域专家的路由权重,若推理性能因此提升,则假说得到支持。
在识别领域专家的基础上,论文提出软干预和硬干预两种路由权重调整策略,并设置随机基线作为对照——对相同数量的随机选取专家施加同等增强,用于排除路由扰动本身带来收益的可能性。
3.1 主要结果
研究团队在三个多模态 MoE 模型(Qwen3-VL-30B-A3B、Kimi-VL-16B-A3B、Llama4-Scout-109B-A17B)上,跨越六个基准测试进行了全面评估。
软干预在所有模型和场景下均带来一致的性能提升,平均提升约 1.5%,在复杂视觉推理任务(MathVerse)上最高提升 3.17%(Kimi-VL)。
随机基线几乎不带来收益,从而确认提升来源于激活正确的领域专家,而非路由扰动本身。
硬干预仅在部分场景下有效,强制覆盖 logit 频繁干扰了原有的路由决策。

3.2 专家识别的鲁棒性
一个重要问题是:当文本参考无法完全覆盖视觉任务的信息时,领域专家识别是否仍然有效?
以 MathVerse 为例,其文本版本无法完整描述几何图形的空间关系,模型在纯文本版本上的精度(67.26%)反而低于视觉版本(69.29%),说明视觉信息本身具有不可替代的价值。
然而,即便使用这样的“不完整”文本参考来识别领域专家,路由引导仍将视觉版本精度从 69.29% 提升至 71.20%。
这一结果表明,领域专家识别定位的是负责认知功能的计算单元,而非特定样本的解题路径。只要文本参考能够激发目标领域的推理模式,识别出的专家就能有效迁移至结构不同的视觉任务。
此外,尽管对信息完整性具有鲁棒性,领域专家识别对域不匹配仍然敏感。使用 GSM8K(基础算术)代替 MathVerse 文本版本进行专家识别时,提升幅度大幅缩减,Llama4 甚至出现性能下降(-1.01%)。
这说明,有效的干预需要使用与目标任务在认知类型上匹配的参考数据。


讨论与未来工作
路由引导干预的有效范围值得关注。该方法针对"感知正确但推理失败"的场景,当任务难点集中于感知阶段(如 GSM8K-V 需要从多张场景图像中提取信息)时,路由引导的收益有限。
这也从侧面说明,Seeing but Not Thinking 现象背后可能存在多种相互交织的因素,路由分心是其中一个可识别、可干预的组成部分,而非全部解释。
跨模态语义共享的验证目前集中于简单数值概念。对于空间关系、几何配置、抽象图表等复杂视觉概念,其语义对齐质量是否与简单概念相当,尚不明确。这些复杂概念的对齐不足,可能构成视觉推理失败的另一个独立因素。
此外,论文展示了中间层路由分歧与推理精度之间的相关性,并通过干预实验提供了支持证据,但两者之间更精确的因果机制仍有待深入探究。
从更长远的角度来看,路由引导干预是推理时的修补方案,且最优干预层范围和强度需针对每个模型-任务组合单独调试。
更根本的解决思路在于训练阶段:设计鼓励路由器基于任务需求而非输入模态分配专家的架构或训练目标,例如惩罚模态依赖的专家选择的路由正则化,或对语义等价的多模态输入对齐路由分布的辅助损失。

总结
本文围绕多模态 MoE 模型中的 Seeing but Not Thinking 现象展开系统性研究。通过跨模态概念干预、专家激活分析和路由分歧量化,论文提出了路由分心假说,并设计了简洁有效的路由引导干预方法加以验证。
该工作为理解多模态推理失败提供了机制性解释,也为推理时干预方法提供了新的实践路径。


《追AI的人》系列直播是一档由阿里巴巴人工智能治理与可持续发展研究中心(AAIG)联合高校和产业界发起的AI治理交互栏目。重点关注并分享人工智能新技术、AI治理新观点、可持续发展新风向。目前联合高校、律所等多家单位举办了61期直播,吸引全国超100万人次实时观看。









关注公众号发现更多干货❤️



内容中包含的图片若涉及版权问题,请及时与我们联系删除




评论
沙发等你来抢