Do LLMs "Feel"? Emotion Circuits Discovery and Control

向作者提问

NEW

简介

随着大型语言模型（LLMs）对情感智能的需求不断增长，一个关键挑战在于理解生成情感表达的内在机制，并实现对生成文本中情感的有效控制。本研究探讨了三个核心问题：（1）LLMs 中是否存在与上下文无关的情感表达调控机制？（2）这些机制的具体形式是什么？（3）能否利用这些机制实现通用的情感控制？我们首先构建了一个受控数据集 SEV（带效价的场景-事件），以在不同情绪下激发可比较的内部状态。随后，我们提取出与上下文无关的情绪方向，揭示了情绪在跨上下文情境中的一致性编码方式（问题1）。通过分析性分解和因果分析，我们识别出在局部实现情感计算的神经元和注意力头，并通过消融与增强干预验证了它们的因果作用。接着，我们量化了每一子层对模型最终情绪表征的因果影响，并将所识别的局部组件整合为连贯的全局情绪回路，这些回路驱动着情感表达的生成（问题2）。直接调控这些回路在测试集上实现了99.65%的情感表达准确率，优于基于提示和引导控制的方法（问题3）。据我们所知，这是首次系统性地揭示并验证LLMs中情绪回路的研究，为模型的可解释性以及可控情感智能提供了新的洞见。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决大型语言模型（LLMs）中情感表达的内部机制不透明以及难以精确控制生成文本情绪的问题。具体聚焦于三个核心问题：LLMs是否具备与上下文无关的情感表达机制？这些机制的具体形式是什么？能否基于这些机制实现通用的情绪控制？这是一个相对较新的问题，尤其是在从可解释性和因果干预角度系统性地挖掘‘情感电路’方面。
关键思路

提出并验证了LLMs中存在跨上下文一致的情感方向（emotion directions），通过分析神经元和注意力头的局部计算作用，识别出负责情感表达的因果组件，并进一步整合为全局‘情感电路’。直接调控这些电路可实现高达99.65%的情绪控制准确率，显著优于提示工程或向量引导等现有方法。其创新在于将因果分析与电路提取引入情感智能领域，首次系统性揭示了LLM中的情感计算路径。
其它亮点

构建了一个受控的情感数据集SEV（Scenario-Event with Valence），用于诱发可比较的内部状态；采用分解分析、因果测试、消融与增强实验验证神经元和注意力头的功能角色；量化了各子层对最终情感表征的因果影响；成功构建并操控情感电路，在测试集上达到99.65%的精准情绪生成；据称是首个系统性发现并验证LLM中情感电路的研究，代码与数据可能开源（文中未明确但研究性质强烈暗示），未来可拓展至多模态情感建模或安全可控对话系统。
相关研究

1. Uncovering the Neural Mechanisms of LLM Reasoning via Circuit Analysis 2. Steering Language Models with Gradient-Based Token Attribution 3. Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 4. Causal Tracing in Language Models: Identifying Mediating Neurons for Question Answering 5. Emotion-Aware Natural Language Generation: A Survey

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问