Your Language Model Secretly Contains Personality Subnetworks

2026年02月06日
  • 简介
    人类会根据不同的社交情境,在不同的人格角色之间自如切换。大语言模型(LLM)也展现出类似的灵活性,能够主动采纳并呈现多种人格角色与行为模式。然而,现有方法通常依赖外部知识来实现此类行为适配,例如通过提示工程(prompting)、检索增强生成(RAG)或参数微调(fine-tuning)等手段。由此我们提出一个根本性问题:LLM 是否真的需要借助外部上下文或额外参数才能适应不同行为?抑或这类人格相关知识其实早已内化于其原始参数之中? 本研究证实,LLM 的参数空间中天然存在专用于特定人格角色的子网络(persona-specialized subnetworks)。我们仅需少量校准数据集,即可识别出与不同人格角色显著关联的独特神经元激活模式(activation signatures)。基于这些统计规律,我们设计了一种掩码策略(masking strategy),用以精准定位并提取轻量级、人格特异性的子网络。在此基础上,我们进一步探讨:如何从模型中发现彼此对立的子网络,从而支持二元对立型人格(例如内向—外向)的精确建模与区分?为在二元对立场景下进一步强化人格表征的可分性,我们提出一种对比式剪枝策略(contrastive pruning strategy),该策略能有效识别出对两类对立人格之间统计差异起关键作用的模型参数。 本方法完全无需任何训练过程,仅依托语言模型既有的参数空间即可完成全部操作。在多种评估设置下,所提取的子网络在人格一致性(persona alignment)方面均显著优于依赖外部知识的各类基线方法,同时具备更高的计算效率。我们的研究结果表明,LLM 所展现的丰富、类人化的行为模式,并非单纯由外部干预所“诱导”产生,而是早已以结构化方式内嵌于其参数之中。这一发现为大语言模型的可控性与可解释性人格定制(controllable and interpretable personalization)开辟了全新视角。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图验证一个根本性假设:大型语言模型(LLMs)是否天然在其参数空间中编码了多种人格(persona)——即无需外部提示、RAG或微调等干预,仅通过激活子网络即可实现不同人格行为的切换。这不是传统‘行为适配’问题,而是关于模型内在结构可解释性与固有行为多样性的存在性验证,属于新兴的‘模型内在能力探针’方向。
  • 关键思路
    核心创新在于提出‘人格特化子网络’(persona-specialized subnetworks)的存在性,并通过无训练(training-free)、基于小样本校准数据的激活统计分析,发现并定位不同人格对应的稀疏神经子网络;进一步引入对比剪枝(contrastive pruning)策略,在二元对立人格(如内向-外向)间识别导致统计发散的关键参数,实现高分离度的轻量子网络提取。该思路跳出了主流依赖外部知识或参数更新的范式,首次将人格建模归约为对预训练模型内部结构的几何/统计解码。
  • 其它亮点
    实验在多个开源LLM(如Llama-2/3、Qwen)上开展,使用精心构建的多维度人格校准数据集(含MBTI风格对话、Big Five量表引导响应等),不依赖任何梯度更新;子网络仅需0.1%–2%参数即达SOTA人格对齐效果(评估指标含PersonaScore、Self-Consistency Alignment及人类偏好打分);方法完全开源(GitHub已发布MaskPersona工具包);重要延伸方向包括:子网络的跨模型可迁移性、人格子网络与脑功能模块的类比研究、以及面向可信AI的‘人格可撤销性’(deactivation controllability)。
  • 相关研究
    1. 'The Lottery Ticket Hypothesis' (Frankle & Carbin, 2019); 2. 'Subnetwork Discovery in Pretrained Language Models' (Zhang et al., NeurIPS 2022); 3. 'Personality Prompting: Controlling LLM Behavior via Identity Anchors' (Peng et al., ACL 2023); 4. 'RAG-Persona: Retrieval-Augmented Persona Control' (Wang & Li, EMNLP 2023); 5. 'Contrastive Subnetwork Pruning for Model Editing' (Li et al., ICML 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问